CN116456307A - 一种基于q学习的能量受限物联网数据采集和融合方法 - Google Patents
一种基于q学习的能量受限物联网数据采集和融合方法 Download PDFInfo
- Publication number
- CN116456307A CN116456307A CN202310522070.2A CN202310522070A CN116456307A CN 116456307 A CN116456307 A CN 116456307A CN 202310522070 A CN202310522070 A CN 202310522070A CN 116456307 A CN116456307 A CN 116456307A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- node
- energy consumption
- flight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 8
- 238000005265 energy consumption Methods 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims description 32
- 238000013480 data collection Methods 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 230000033001 locomotion Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 7
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 238000012271 agricultural production Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/22—Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法,属于利用计算机模型优化无人机群数据采集能耗的技术领域。本发明针对无人机群的碰撞避免、飞行角度变化和节点距离约束,将无人机能耗问题转化为马尔可夫决策过程,应用强化学习算法求解无人机路径决策问题:将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励,使无人机群协同访问所有节点,并有效降低了能耗。此外,在无人机群任务完成后,动态选择距离基站最近的无人机作为中继无人机,中继无人机将其他无人机采集的数据统一传输到基站,从而降低了无人机群的总体飞行能耗。
Description
技术领域
本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法,属于利用计算机模型优化无人机群数据采集能耗的技术领域。
背景技术
在农业生产区部署无线传感器网络实时监测影响作物生长的因素,利用无人机的高机动性、动态部署等特点,对传感器网络中节点的实时数据收集,可以及时发现问题并采取相应措施,保证农业生产的正常进行。随着农业的机械化、科学化、集约化发展,农业生产区规模不断扩大,能量受限的单架无人机已无法有效应对大量节点的数据收集任务。合理调度无人机群实现协同数据收集,是解决上述问题的有效途径,具有重要的研究价值和实际应用意义。
然而,由于无人机群携带的电池能量有限,传感器节点的数据时效性较低,任务执行时间过长可能导致无人机群无法访问所有传感器节点或者数据产生较大误差。同时,多个无人机在同一区域内飞行存在碰撞风险。因此,在大规模农场环境下,优化无人机群的飞行路径,以减少能量消耗和碰撞,成为无人机群协同数据收集亟需解决的问题之一。
在实际应用场景下,无人机的能耗高低直接决定了数据收集任务的完成率。无人机能耗由数据传输能耗和运动能耗两部分组成。由于运动能耗远大于数据传输能耗,所以使用优化方法规划无人机的飞行路径可以有效减小总能耗,从而提高任务的完成率。
为此中国专利文献:CN 110958680 A公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括:采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值。本专利文献采用分布式多智能体深度强化学方法,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
中国专利文献:CN 112672307 A涉及一种基于Q学习的无人机辅助数据收集系统及方法,其系统包括:基站;无人机;地面感知区域,分割为数个区块;无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;无线数据收发器,搭载于无人机上,无线数据收发器与无线传感器节点交互,以获取数据包;数据处理器包括数据处理模块和Q学习模块,数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据信息年龄动态调整Q学习算法,以确定无人机的飞行动作。该文献能快速高效地收集无线传感器网络的数据。
中国专利文献:CN 114339936 A基于Q学习的飞行器自组织网络优化链路状态路由机制,该机制基于节点亲密度、链路质量和剩余能量建立奖励函数计算奖励值,节点根据环境反馈的奖励值对该节点选择下一跳节点的策略进行调整,以减少数据传输的延迟;根据节点移动感知过程计算决定Q值更新快慢的学习速率参数,以保证数据的实时性;利用奖励函数和学习速率构建Q学习优化函数计算下一跳节点的Q值,选择Q值最大的下一跳节点作为转发节点,以提高网络的生存期。该机制利用Q学习算法选择转发节点,能够适用于拓扑结构高度变化的飞行器自组织网络。仿真结果表明,该文献提出的Q-OLSR机制相比于OLSR和QMR在端到端延迟、包投递率和能量消耗方面均有提升。
技术文献《基于Q学习无人机辅WSN数据采集轨迹规划》公开于《计算机工程》2021年4月第47卷第4期。技术文献《基于Q学习的无人机航迹规划》公开于北京航空航天大学。
针对现有技术存在问题如下:
1、现有技术提出算法中如果神经网络迭代次数较少,经验池中经验不足,很难对无人机的飞行巡航进行优化;迭代次数增加后,会增加算法运行时间,导致消耗更多的无人机能耗。
2、由于单个无人机携带电池能量有限,不适用于大规模物联网网络。
3、物联网节点携带电池电量有限,节点之间数据传输会减少节点的使用寿命。
4、由于路径规划是无人机的核心技术之一,目前的研究大多集中在单架无人机的路径规划上。随着机器学习领域的发展,无人机群的协同路径规划也获得了广泛关注。然而,在大规模农业生产中对传感器节点的数据收集,多无人机协同路径规划的相关研究还相当有限。
发明内容
针对现有技术的不足,本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法。
发明概述:
本发明针对无人机群的碰撞避免、飞行角度变化和节点距离约束,将无人机能耗问题转化为马尔可夫决策过程,应用强化学习算法求解无人机路径决策问题:将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励,使无人机群协同访问所有节点,并有效降低了能耗。此外,在无人机群任务完成后,动态选择距离基站最近的无人机作为中继无人机,中继无人机将其他无人机采集的数据统一传输到基站,从而降低了无人机群的总体飞行能耗。
本发明详细的技术方案包括:
一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,包括:
步骤a.建立无人机群能耗模型:
为了提高数据采集的完成率,需要根据无人机电池容量,合理规划能耗最小的路径,无人机执行任务的能耗包括无人机数据传输能耗和行动能耗;
当无人机飞行到单个节点上方时,节点将节点数据传输到无人机的能耗表示为Enode:
Enode=λ·etp·Eamp1·H2 (1)
在公式(1)中,λ为节点数据的数据量;etp为发送每单位量的节点数据所需能耗;Eamp1为节点内发送放大器能耗;H为节点到无人机的距离;所述节点数据为从部署农场环境中的节点收集到的数据,如温度、湿度等节点数据,但实际应用场景并不限于所记载的节点数据类型;
无人机k根据路径规划从各节点接收节点数据能耗总和表示为Ecp:
Ecp=s·λ·ecp (2)
在公式(2)中,s为无人机k访问节点的个数;ecp为接收每单位量的节点数据所需能耗;
由于数据传输能耗远小于无人机飞行能耗,当无人机群数据收集完毕,为了减少无人机的飞行能耗,设定距离基站最近的无人机为中继无人机UAVrp,用于将其他无人机的数据收集后统一发送给基站,无人机k的数据发送能耗表示为Euav:
在公式(3)中,Eamp2为无人机内的发送放大器能耗;d为无人机之间的距离;R为提前设定的距离阈值,用于判断数据传输能耗增加,此为经验值;
所述中继无人机UAVrp接收其他无人机数据能耗表示为Ere:
Ere=N·λ·ecp (4)
在公式(4)中,N为应用场景中的N个节点;
所述中继无人机UAVrp将所有数据发送到基站能耗表示为Etr:
Etr=N·λ·etp·Eamp2·r2 (5)
在公式(5)中,r为中继无人机与基站之间的距离;
无人机行动能耗包括飞行能耗和悬停能耗,其中单位时间飞行能耗为ef,单位时间悬停能耗为es;
为无人机k设置二维数组记录其飞行轨迹,其中a和b分别是地面节点:
如果无人机k不经过地面节点a和b之间的路径,则
否则
无人机k的总飞行距离表示为:
在公式(6)中,Lab无人机从节点a到节点b的飞行距离;
无人机群将所有节点遍历,存在以下约束条件:
在公式(7)中,U为无人机群中无人机的总数;
将给定的数据收集任务时间Γ划分为T个时隙:
当无人机群完成数据收集任务花费t个时隙时,则任务时间存在以下约束:
t·Δt≤Γ (8)
在公式(8)中,Δt表示每个时隙的时间;
为避免多无人机协同工作时发生碰撞,设定安全距离dsafe,在任意时隙ts中,无人机i和无人机j之间存在以下约束:
在公式(9)中,表示在任意时隙ts中无人机i和无人机j之间的距离;
在每个时隙中,无人机k:
根据规划路径飞行到指定节点上方收集数据,并悬停等待通过改进的Q-Learning算法获得下一个未访问节点坐标,则其飞行总能耗表示为:
在公式(10)中,ef为无人机单位时间飞行能耗;v为无人机飞行速度;
同样,无人机k在节点b的悬停能耗表示为:
则无人机k的悬停总能耗表示为:
则无人机k的行动总能耗为:
无人机携带的电池能量有限,假设无人机携带的电池最大电量为Emax,在无人机k能量消耗殆尽之前完成采集任务对应的约束:
Ecost<Emax (14)
在公式(14)中,Ecost为无人机任务完成时耗费的电池能量;
由于数据传输能耗一般远小于行动能耗,因此对数据采集任务只考虑优化行动能耗,即
在多无人机协作的数据采集任务中,最小化行动能耗E,则优化问题表述为:
步骤b.动态选择中继无人机:
由于农业生产区规模较大,无人机通信距离有限,不能直接将收集到的数据传输给基站,当所有节点访问完成后,根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机:
计算各无人机与基站的距离:
在公式(16)中,基站部署在地面上,其坐标为(xs,ys,0);无人机k坐标为(xk,yk,H);选择距离基站最近的无人机作为中继无人机,中继无人机接收其他无人机的所有数据飞往基站,进一步减少了无人机群的总体飞行能耗。
根据本发明优选的,通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括:
所述Q-Learning算法奖励函数不能在本应用场景中避免无人机群的碰撞情况;所述Q-Learning算法是强化学习中的一种算法,包括状态(S),动作(A),奖励(R),Q表中记录了每个状态采取当前可能的动作能够得到的未来期望总奖励,当Q表更新完成后,主体根据Q表选择最优路径;
改进的Q-learning算法:即下文中对奖励函数的改进;
强化学习通过与环境进行交互获得奖励指导行为,可以使智能体获得最大的奖赏,用于解决具有未知状态转换动态的序列决策问题;通常,序列决策问题可以描述为马尔科夫决策过程(Markov decision process,MDP),由元组<S,A,P,R,γ>描述,其中S是状态空间,A是动作空间,P是状态转换模型,R是奖励,γ∈[0,1]为折扣因子用来平衡当前和未来奖励重要性;
结合约束条件公式(7)、(8)、(9)、(14),将最小化行动能耗问题转化为MDP,元组<S,A,R>解释为:
状态空间S:多无人机场景下,每个无人机悬停位置坐标;
动作空间A:设置飞行角度θ集合,动作a为以速度v、飞行角度θ移动;
奖励R:奖励根据目标函数和约束条件进行设计,奖励的设计对学习速度和质量起着重要作用,无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为:
Rt=Rat+Rdt+Rst (16)
在公式(16)中,Rat为飞行旋转角度奖励;Rdt是节点距离奖励;Rst是安全距离约束奖励;
Rat与下一时间段无人机飞行角度大小有关,该奖励用于鼓励无人机减小飞行旋转角度,表示为:
在公式(17)中,α1为奖励权重;θt+1为下一个时隙无人机的飞行旋转角度;
Rdt用于鼓励无人机访问距离更近的节点,以减少飞行路径,其表示如下:
在公式(18)中,α2为奖励权重;dmax为所有节点距离的最大值;dab表示无人机t+1时隙从节点a到节点b的距离;
Rst用于避免多无人机协同工作发生碰撞,当两个无人机距离过近时给予惩罚,鼓励无人机之间保持安全距离:
在公式(19)中,α3为奖励权重;dij为无人机i和无人机j之间的距离;dsafe为设定的无人机之间的安全距离;
以上述无人机飞行角度转变,节点距离奖励和安全距离约束作为奖励函数,初始化Q表并更新,更新公式如下:
NewQ(st,at)=Q(st,at)+α[R(st,at)+γmaxa′Q(st+1,a′)-Q(st,at)] (20)
在公式(20)中,α为学习率;γ为折扣因子;NewQ(st,at):状态st和动作at的更新后的新Q值;Q(st,at):状态st和动作at的Q值;R(st,at):状态st和动作at的奖励;maxa′Q(st+1,a′):新的状态st+1和该状态下所有可能的行动a′的最大预期未来奖励;
当Q表迭代完成后,根据Q值指导无人机的飞行路线。
根据本发明优选的,在所述步骤a之前还包括:定义实际应用场景:
应用场景中共N个节点,U个无人机,节点n的坐标为(xn,yn),无人机k的坐标为(xk,yk,H),H为无人机的飞行高度;无人机从节点a到节点b的飞行距离为:
在公式(21)中,节点a的坐标为(xa,ya),节点b的坐标为(xb,yb);记录无人机数据收集情况:记录未访问节点集合Anode和已访问节点集合Snode。
本发明的技术优势在于:
1、本发明基于强化学习的Q学习算法,改进了奖励函数,加入了碰撞避免、飞行角度变化和节点距离约束,智能规划无人机群的飞行路径,保证了无人机群飞行安全的同时提高了数据收集效率。
2、本发明的无人机群在开始数据收集任务前,已知场景中所有节点坐标,利用改进的Q-Learning算法可以直接获得各个无人机的飞行路径。
3、本发明采用无人机群执行协同数据收集任务,可以降低单个无人机的能量消耗,避免单个无人机因能耗问题导致任务失败,更好地适应大规模农场场景中物联网网络的节点数据收集。
4、本发明还根据实际场景,按照无人机与基站位置距离关系动态选择中继无人机,收集其他无人机数据后飞往基站进行数据传输,进一步减少了无人机群的总体能耗。
附图说明
图1是本发明无人机群协同数据收集场景图;
图2是本发明无人机群协同数据收集示意图。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
无人机群协同数据收集应用于大规模传感器网络,能够实现对作物的实时检测,提高生产效率,有限的电池能量严重影响了无人机数据收集的性能。为有效减少无人机的能量消耗,提高收集任务效率,需要规划无人机群的飞行路径。基于强化学习的Q学习算法,设计出一种考虑了碰撞避免、飞行角度变化和节点距离约束的智能轨迹优化方法,为无人机群在大规模农业生产中辅助数据收集提供了一种可靠方法。
实施例1、
如图1所示,假设在面积为1000×2000m的大规模农业生产区中共分布20个传感器节点,基站设置在上述农业生产区的边缘,利用本发明所述方法、使用3个无人机协同完成数据收集任务。
一种基于Q学习的能量受限物联网数据采集和融合方法,包括:
步骤a.建立无人机群能耗模型:
为了提高数据采集的完成率,需要根据无人机电池容量,合理规划能耗最小的路径,无人机执行任务的能耗包括无人机数据传输能耗和行动能耗;
当无人机飞行到单个节点上方时,节点将节点数据传输到无人机的能耗表示为Enode:
Enode=λ·etp·Eamp1·H2 (1)
在公式(1)中,λ为节点数据的数据量;etp为发送每单位量的节点数据所需能耗;Eamp1为节点内发送放大器能耗;H为节点到无人机的距离;所述节点数据为从部署农场环境中的节点收集到的数据,如温度、湿度等节点数据,但实际应用场景并不限于所记载的节点数据类型;
无人机k根据路径规划从各节点接收节点数据能耗总和表示为Ecp:
Ecp=s·λ·ecp (2)
在公式(2)中,s为无人机k访问节点的个数;ecp为接收每单位量的节点数据所需能耗;
由于数据传输能耗远小于无人机飞行能耗,当无人机群数据收集完毕,为了减少无人机的飞行能耗,设定距离基站最近的无人机为中继无人机UAVrp,用于将其他无人机的数据收集后统一发送给基站,无人机k的数据发送能耗表示为Euav:
在公式(3)中,Eamp2为无人机内的发送放大器能耗;d为无人机之间的距离;R为提前设定的距离阈值,用于判断数据传输能耗增加,此为经验值;
所述中继无人机UAVrp接收其他无人机数据能耗表示为Ere:
Ere=N·λ·ecp (4)
在公式(4)中,N为应用场景中的N个节点;
所述中继无人机UAVrp将所有数据发送到基站能耗表示为Etr:
Etr=N·λ·etp·Eamp2·r2 (5)
在公式(5)中,r为中继无人机与基站之间的距离;
无人机行动能耗包括飞行能耗和悬停能耗,其中单位时间飞行能耗为ef,单位时间悬停能耗为es;
为无人机k设置二维数组记录其飞行轨迹,其中a和b分别是地面节点:
如果无人机k不经过地面节点a和b之间的路径,则
否则
无人机k的总飞行距离表示为:
在公式(6)中,Lab无人机从节点a到节点b的飞行距离;
无人机群将所有节点遍历,存在以下约束条件:
在公式(7)中,U为无人机群中无人机的总数;
将给定的数据收集任务时间Γ划分为T个时隙:
当无人机群完成数据收集任务花费t个时隙时,则任务时间存在以下约束:
t·Δt≤Γ (8)
在公式(8)中,Δt表示每个时隙的时间;
为避免多无人机协同工作时发生碰撞,设定安全距离dsafe,在任意时隙ts中,无人机i和无人机j之间存在以下约束:
在公式(9)中,表示在任意时隙ts中无人机i和无人机j之间的距离;
在每个时隙中,无人机k:
根据规划路径飞行到指定节点上方收集数据,并悬停等待通过改进的Q-Learning算法获得下一个未访问节点坐标,则其飞行总能耗表示为:
在公式(10)中,ef为无人机单位时间飞行能耗;v为无人机飞行速度;
同样,无人机k在节点b的悬停能耗表示为:
则无人机k的悬停总能耗表示为:
则无人机k的行动总能耗为:
无人机携带的电池能量有限,假设无人机携带的电池最大电量为Emax,在无人机k能量消耗殆尽之前完成采集任务对应的约束:
Ecost<Emax (14)
在公式(14)中,Ecost为无人机任务完成时耗费的电池能量;
由于数据传输能耗一般远小于行动能耗,因此对数据采集任务只考虑优化行动能耗,即
在多无人机协作的数据采集任务中,最小化行动能耗E,则优化问题表述为:
步骤b.动态选择中继无人机:
由于农业生产区规模较大,无人机通信距离有限,不能直接将收集到的数据传输给基站,当所有节点访问完成后,根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机:
计算各无人机与基站的距离:
在公式(16)中,基站部署在地面上,其坐标为(xs,ys,0);无人机k坐标为(xk,yk,H);选择距离基站最近的无人机作为中继无人机,中继无人机接收其他无人机的所有数据飞往基站,进一步减少了无人机群的总体飞行能耗。
如图2所示,无人机群按照本发明提出的方法进行路径规划,访问所有传感器节点,最后根据无人机群的位置选取中继无人机,收集所有其他无人机的数据并飞往基站,完成数据收集任务。
本实施例的技术优势在于:1.无人机群和节点可以在场景中随机部署;2.无人机和节点个数可根据实际情况增加或减少;3.无人机群根据路径规划访问节点有效较少了能量消耗。
实施例2、
如实施例1所述的方法,其中,通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括:
所述Q-Learning算法奖励函数不能在本应用场景中避免无人机群的碰撞情况;所述Q-Learning算法是强化学习中的一种算法,包括状态(S),动作(A),奖励(R),Q表中记录了每个状态采取当前可能的动作能够得到的未来期望总奖励,当Q表更新完成后,主体根据Q表选择最优路径;
改进的Q-learning算法:即下文中对奖励函数的改进;
强化学习通过与环境进行交互获得奖励指导行为,可以使智能体获得最大的奖赏,用于解决具有未知状态转换动态的序列决策问题;通常,序列决策问题可以描述为马尔科夫决策过程(Markov decision process,MDP),由元组<S,A,P,R,γ>描述,其中S是状态空间,A是动作空间,P是状态转换模型,R是奖励,γ∈[0,1]为折扣因子用来平衡当前和未来奖励重要性;
结合约束条件公式(7)、(8)、(9)、(14),将最小化行动能耗问题转化为MDP,元组<S,A,R>解释为:
状态空间S:多无人机场景下,每个无人机悬停位置坐标;
动作空间A:设置飞行角度θ集合,动作a为以速度v、飞行角度θ移动;
奖励R:奖励根据目标函数和约束条件进行设计,奖励的设计对学习速度和质量起着重要作用,无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为:
Rt=Rat+Rdt+Rst (16)
在公式(16)中,Rat为飞行旋转角度奖励;Rdt是节点距离奖励;Rst是安全距离约束奖励;
Rat与下一时间段无人机飞行角度大小有关,该奖励用于鼓励无人机减小飞行旋转角度,表示为:
在公式(17)中,α1为奖励权重;θt+1为下一个时隙无人机的飞行旋转角度;
Rdt用于鼓励无人机访问距离更近的节点,以减少飞行路径,其表示如下:
在公式(18)中,α2为奖励权重;dmax为所有节点距离的最大值;dab表示无人机t+1时隙从节点a到节点b的距离;
Rst用于避免多无人机协同工作发生碰撞,当两个无人机距离过近时给予惩罚,鼓励无人机之间保持安全距离:
在公式(19)中,α3为奖励权重;dij为无人机i和无人机j之间的距离;dsafe为设定的无人机之间的安全距离;
以上述无人机飞行角度转变,节点距离奖励和安全距离约束作为奖励函数,初始化Q表并更新,更新公式如下:
NewQ(st,at)=Q(st,at)+α[R(st,at)+γmaxa′Q(st+1,a′)-Q(st,at)] (20)
在公式(20)中,α为学习率;γ为折扣因子;NewQ(st,at):状态st和动作at的更新后的新Q值;Q(st,at):状态st和动作at的Q值;R(st,at):状态st和动作at的奖励;maxa′Q(st+1,a′):新的状态st+1和该状态下所有可能的行动a′的最大预期未来奖励;
当Q表迭代完成后,根据Q值指导无人机的飞行路线。
实施例3、
如实施例1、2所述方法,在所述步骤a之前还包括:定义实际应用场景:
应用场景中共N个节点,U个无人机,节点n的坐标为(xn,yn),无人机k的坐标为(xk,yk,H),H为无人机的飞行高度;无人机从节点a到节点b的飞行距离为:
在公式(1)中,节点a的坐标为(xa,ya),节点b的坐标为(xb,yb);记录无人机数据收集情况:记录未访问节点集合Anode和已访问节点集合Snode。
Claims (3)
1.一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,包括:
步骤a.建立无人机群能耗模型:
无人机执行任务的能耗包括无人机数据传输能耗和行动能耗;
当无人机飞行到单个节点上方时,节点将节点数据传输到无人机的能耗表示为Enode:
Enode=λ·etp·Eamp1·H2 (1)
在公式(1)中,λ为节点数据的数据量;etp为发送每单位量的节点数据所需能耗;Eamp1为节点内发送放大器能耗;H为节点到无人机的距离;
无人机k根据路径规划从各节点接收节点数据能耗总和表示为Ecp:
Ecp=s·λ·ecp (2)
在公式(2)中,s为无人机k访问节点的个数;ecp为接收每单位量的节点数据所需能耗;
设定距离基站最近的无人机为中继无人机UAVrp,用于将其他无人机的数据收集后统一发送给基站,无人机k的数据发送能耗表示为Euav:
在公式(3)中,Eamp2为无人机内的发送放大器能耗;d为无人机之间的距离;R为提前设定的距离阈值;
所述中继无人机UAVrp接收其他无人机数据能耗表示为Ere:
Ere=N·λ·ecp (4)
在公式(4)中,N为应用场景中的N个节点;
所述中继无人机UAVrp将所有数据发送到基站能耗表示为Etr:
Etr=N·λ·etp·Eamp2·r2 (5)
在公式(5)中,r为中继无人机与基站之间的距离;
无人机行动能耗包括飞行能耗和悬停能耗,其中单位时间飞行能耗为ef,单位时间悬停能耗为es;
为无人机k设置二维数组记录其飞行轨迹,其中a和b分别是地面节点:
如果无人机k不经过地面节点a和b之间的路径,则
否则
无人机k的总飞行距离表示为:
在公式(6)中,Lab无人机从节点a到节点b的飞行距离;
无人机群将所有节点遍历,存在以下约束条件:
在公式(7)中,U为无人机群中无人机的总数;
将给定的数据收集任务时间Γ划分为T个时隙:
当无人机群完成数据收集任务花费t个时隙时,则任务时间存在以下约束:
t·Δt≤Γ (8)
在公式(8)中,Δt表示每个时隙的时间;
设定安全距离dsafe,在任意时隙ts中,无人机i和无人机j之间存在以下约束:
在公式(9)中,表示在任意时隙ts中无人机i和无人机j之间的距离;
在每个时隙中,无人机k:
根据规划路径飞行到指定节点上方收集数据,并悬停等待通过改进的Q-Learning算法获得下一个未访问节点坐标,则其飞行总能耗表示为:
在公式(10)中,ef为无人机单位时间飞行能耗;v为无人机飞行速度;
同样,无人机k在节点b的悬停能耗表示为:
则无人机k的悬停总能耗表示为:
则无人机k的行动总能耗为:
无人机携带的电池最大电量为Emax,在无人机k能量消耗殆尽之前完成采集任务对应的约束:
Ecost<Emax (14)
在公式(14)中,Ecost为无人机任务完成时耗费的电池能量;
对数据采集任务优化行动能耗,即
在多无人机协作的数据采集任务中,最小化行动能耗E,则优化问题表述为:
步骤b.动态选择中继无人机:
当所有节点访问完成后,根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机:
计算各无人机与基站的距离:
在公式(16)中,基站部署在地面上,其坐标为(xs,ys,0);无人机k坐标为(xk,yk,H);选择距离基站最近的无人机作为中继无人机,中继无人机接收其他无人机的所有数据飞往基站。
2.根据权利要求1所述的一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括:
结合约束条件公式(7)、(8)、(9)、(14),将最小化行动能耗问题转化为MDP,元组<S,A,R>解释为:
状态空间S:多无人机场景下,每个无人机悬停位置坐标;
动作空间A:设置飞行角度θ集合,动作a为以速度v、飞行角度θ移动;
奖励R:无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为:
Rt=Rat+Rdt+Rst (16)
在公式(16)中,Rat为飞行旋转角度奖励;Rdt是节点距离奖励;Rst是安全距离约束奖励;
Rat与下一时间段无人机飞行角度大小有关,该奖励用于鼓励无人机减小飞行旋转角度,表示为:
在公式(17)中,α1为奖励权重;θt+1为下一个时隙无人机的飞行旋转角度;
Rdt用于鼓励无人机访问距离更近的节点,以减少飞行路径,其表示如下:
在公式(18)中,α2为奖励权重;dmax为所有节点距离的最大值;dab表示无人机t+1时隙从节点a到节点b的距离;
Rst用于避免多无人机协同工作发生碰撞,当两个无人机距离过近时给予惩罚,鼓励无人机之间保持安全距离:
在公式(19)中,α3为奖励权重;dij为无人机i和无人机j之间的距离;dsafe为设定的无人机之间的安全距离;
以上述无人机飞行角度转变,节点距离奖励和安全距离约束作为奖励函数,初始化Q表并更新,更新公式如下:
NewQ(st,at)=Q(st,at)+α[R(st,at)+γmaxa′Q(st+1,a′)-Q(st,at)] (20)
在公式(20)中,α为学习率;γ为折扣因子;NewQ(st,at):状态st和动作at的更新后的新Q值;Q(st,at):状态st和动作at的Q值;R(st,at):状态st和动作at的奖励;maxa′Q(st+1,a′):新的状态st+1和该状态下所有可能的行动a′的最大预期未来奖励;
当Q表迭代完成后,根据Q值指导无人机的飞行路线。
3.根据权利要求1或2所述的一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,在所述步骤a之前还包括:定义实际应用场景:
应用场景中共N个节点,U个无人机,节点n的坐标为(xn,yn),无人机k的坐标为(xk,yk,H),H为无人机的飞行高度;无人机从节点a到节点b的飞行距离为:
在公式(21)中,节点a的坐标为(xa,ya),节点b的坐标为(xb,yb);记录无人机数据收集情况:记录未访问节点集合Anode和已访问节点集合Snode。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522070.2A CN116456307B (zh) | 2023-05-06 | 2023-05-06 | 一种基于q学习的能量受限物联网数据采集和融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522070.2A CN116456307B (zh) | 2023-05-06 | 2023-05-06 | 一种基于q学习的能量受限物联网数据采集和融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116456307A true CN116456307A (zh) | 2023-07-18 |
CN116456307B CN116456307B (zh) | 2024-04-09 |
Family
ID=87130192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310522070.2A Active CN116456307B (zh) | 2023-05-06 | 2023-05-06 | 一种基于q学习的能量受限物联网数据采集和融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116456307B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN111953407A (zh) * | 2020-08-24 | 2020-11-17 | 西南大学 | 无人机视频中继系统及其最小化能耗的方法 |
CN113759971A (zh) * | 2021-08-30 | 2021-12-07 | 中国人民解放军国防科技大学 | 一种面向无人机协同侦察的路径规划方法 |
CN115119174A (zh) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | 灌区场景中基于能耗优化的无人机自主部署方法 |
-
2023
- 2023-05-06 CN CN202310522070.2A patent/CN116456307B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN111953407A (zh) * | 2020-08-24 | 2020-11-17 | 西南大学 | 无人机视频中继系统及其最小化能耗的方法 |
CN113759971A (zh) * | 2021-08-30 | 2021-12-07 | 中国人民解放军国防科技大学 | 一种面向无人机协同侦察的路径规划方法 |
CN115119174A (zh) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | 灌区场景中基于能耗优化的无人机自主部署方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116456307B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | UAV-assisted data collection for internet of things: A survey | |
Sun et al. | AoI-energy-aware UAV-assisted data collection for IoT networks: A deep reinforcement learning method | |
CN113190039B (zh) | 一种基于分层深度强化学习的无人机采集路径规划方法 | |
CN109099918B (zh) | 无人机辅助无线能量传输系统及节点调度与路径规划方法 | |
Wu et al. | Joint deployment and trajectory optimization in UAV-assisted vehicular edge computing networks | |
CN103228023A (zh) | 基于粒子群蚁群优化的无线传感器网络分簇路由方法 | |
CN113759971B (zh) | 一种面向无人机协同侦察的路径规划方法 | |
CN113433967A (zh) | 一种可充电无人机路径规划方法及系统 | |
Zhu et al. | Path planning of multi-UAVs based on deep Q-network for energy-efficient data collection in UAVs-assisted IoT | |
Singh et al. | Multi-objective NSGA-II optimization framework for UAV path planning in an UAV-assisted WSN | |
CN112752357B (zh) | 基于能量收割技术的在线无人机辅助数据收集方法及装置 | |
CN110380776A (zh) | 一种基于无人机的物联网系统数据收集方法 | |
Khodaparast et al. | Deep reinforcement learning based energy efficient multi-UAV data collection for IoT networks | |
Amodu et al. | Age of Information minimization in UAV-aided data collection for WSN and IoT applications: A systematic review | |
CN113485409A (zh) | 一种面向地理公平性的无人机路径规划分配方法及系统 | |
CN116700343A (zh) | 一种无人机路径规划方法、设备和存储介质 | |
CN116456307B (zh) | 一种基于q学习的能量受限物联网数据采集和融合方法 | |
Chen et al. | Cooperative networking strategy of UAV cluster for large-scale WSNs | |
CN112702688A (zh) | 结合能量补充和数据收集的移动小车规划方法 | |
CN116390129A (zh) | 一种基于无人机辅助的无线传感网络能量效率优化方法 | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
Liu et al. | Dynamic Charging Strategy Optimization for UAV-Assisted Wireless Rechargeable Sensor Networks Based On Deep Q-network | |
Raj et al. | An enhanced evolutionary scheme for obstacle-aware data gathering in uav-assisted wsns | |
CN117055621B (zh) | 面向数据采集的多无人机路径规划方法 | |
Liu et al. | Multi-objective Optimization for Data Collection in UAV-assisted Agricultural IoT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |