CN116456307A

CN116456307A - 一种基于q学习的能量受限物联网数据采集和融合方法

Info

Publication number: CN116456307A
Application number: CN202310522070.2A
Authority: CN
Inventors: 张恒; 高原; 杨明; 吴晓明; 王鑫; 于莉莉; 毕鹏; 徐硕; 李明; 张键; 李宏然
Original assignee: Qilu University of Technology; Jiangsu Ocean University; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Jiangsu Ocean University; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-18
Anticipated expiration: 2043-05-06
Also published as: CN116456307B

Abstract

本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法，属于利用计算机模型优化无人机群数据采集能耗的技术领域。本发明针对无人机群的碰撞避免、飞行角度变化和节点距离约束，将无人机能耗问题转化为马尔可夫决策过程，应用强化学习算法求解无人机路径决策问题：将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励，使无人机群协同访问所有节点，并有效降低了能耗。此外，在无人机群任务完成后，动态选择距离基站最近的无人机作为中继无人机，中继无人机将其他无人机采集的数据统一传输到基站，从而降低了无人机群的总体飞行能耗。

Description

一种基于Q学习的能量受限物联网数据采集和融合方法

技术领域

本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法，属于利用计算机模型优化无人机群数据采集能耗的技术领域。

背景技术

在农业生产区部署无线传感器网络实时监测影响作物生长的因素，利用无人机的高机动性、动态部署等特点，对传感器网络中节点的实时数据收集，可以及时发现问题并采取相应措施，保证农业生产的正常进行。随着农业的机械化、科学化、集约化发展，农业生产区规模不断扩大，能量受限的单架无人机已无法有效应对大量节点的数据收集任务。合理调度无人机群实现协同数据收集，是解决上述问题的有效途径，具有重要的研究价值和实际应用意义。

然而，由于无人机群携带的电池能量有限，传感器节点的数据时效性较低，任务执行时间过长可能导致无人机群无法访问所有传感器节点或者数据产生较大误差。同时，多个无人机在同一区域内飞行存在碰撞风险。因此，在大规模农场环境下，优化无人机群的飞行路径，以减少能量消耗和碰撞，成为无人机群协同数据收集亟需解决的问题之一。

在实际应用场景下，无人机的能耗高低直接决定了数据收集任务的完成率。无人机能耗由数据传输能耗和运动能耗两部分组成。由于运动能耗远大于数据传输能耗，所以使用优化方法规划无人机的飞行路径可以有效减小总能耗，从而提高任务的完成率。

为此中国专利文献：CN 110958680 A公开了面向能量效率的无人机群多智能体深度强化学习优化方法，包括：采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值。本专利文献采用分布式多智能体深度强化学方法，设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律，解决传统强化学习面临的大状态空间无法得到收敛解的难题，实现多智能体分布式协同学习，提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

中国专利文献：CN 112672307 A涉及一种基于Q学习的无人机辅助数据收集系统及方法，其系统包括：基站；无人机；地面感知区域，分割为数个区块；无线传感器网络，包括布设于地面感知区域的多个无线传感器节点，每一区块最多包含一个无线传感器节点；无线传感器节点用于实时感知环境并生成数据包；无线数据收发器，搭载于无人机上，无线数据收发器与无线传感器节点交互，以获取数据包；数据处理器包括数据处理模块和Q学习模块，数据处理模块用于对数据包进行数据处理，以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄；Q学习模块用于根据信息年龄动态调整Q学习算法，以确定无人机的飞行动作。该文献能快速高效地收集无线传感器网络的数据。

中国专利文献：CN 114339936 A基于Q学习的飞行器自组织网络优化链路状态路由机制，该机制基于节点亲密度、链路质量和剩余能量建立奖励函数计算奖励值，节点根据环境反馈的奖励值对该节点选择下一跳节点的策略进行调整，以减少数据传输的延迟；根据节点移动感知过程计算决定Q值更新快慢的学习速率参数，以保证数据的实时性；利用奖励函数和学习速率构建Q学习优化函数计算下一跳节点的Q值，选择Q值最大的下一跳节点作为转发节点，以提高网络的生存期。该机制利用Q学习算法选择转发节点，能够适用于拓扑结构高度变化的飞行器自组织网络。仿真结果表明，该文献提出的Q-OLSR机制相比于OLSR和QMR在端到端延迟、包投递率和能量消耗方面均有提升。

技术文献《基于Q学习无人机辅WSN数据采集轨迹规划》公开于《计算机工程》2021年4月第47卷第4期。技术文献《基于Q学习的无人机航迹规划》公开于北京航空航天大学。

针对现有技术存在问题如下：

1、现有技术提出算法中如果神经网络迭代次数较少，经验池中经验不足，很难对无人机的飞行巡航进行优化；迭代次数增加后，会增加算法运行时间，导致消耗更多的无人机能耗。

2、由于单个无人机携带电池能量有限，不适用于大规模物联网网络。

3、物联网节点携带电池电量有限，节点之间数据传输会减少节点的使用寿命。

4、由于路径规划是无人机的核心技术之一，目前的研究大多集中在单架无人机的路径规划上。随着机器学习领域的发展，无人机群的协同路径规划也获得了广泛关注。然而，在大规模农业生产中对传感器节点的数据收集，多无人机协同路径规划的相关研究还相当有限。

发明内容

针对现有技术的不足，本发明公开一种基于Q学习的能量受限物联网数据采集和融合方法。

发明概述：

本发明针对无人机群的碰撞避免、飞行角度变化和节点距离约束，将无人机能耗问题转化为马尔可夫决策过程，应用强化学习算法求解无人机路径决策问题：将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励，使无人机群协同访问所有节点，并有效降低了能耗。此外，在无人机群任务完成后，动态选择距离基站最近的无人机作为中继无人机，中继无人机将其他无人机采集的数据统一传输到基站，从而降低了无人机群的总体飞行能耗。

本发明详细的技术方案包括：

一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，包括：

步骤a.建立无人机群能耗模型：

为了提高数据采集的完成率，需要根据无人机电池容量，合理规划能耗最小的路径，无人机执行任务的能耗包括无人机数据传输能耗和行动能耗；

当无人机飞行到单个节点上方时，节点将节点数据传输到无人机的能耗表示为E_node：

E_node＝λ·e_tp·E_amp1·H² (1)

在公式(1)中，λ为节点数据的数据量；e_tp为发送每单位量的节点数据所需能耗；E_amp1为节点内发送放大器能耗；H为节点到无人机的距离；所述节点数据为从部署农场环境中的节点收集到的数据，如温度、湿度等节点数据，但实际应用场景并不限于所记载的节点数据类型；

无人机k根据路径规划从各节点接收节点数据能耗总和表示为E_cp：

E_cp＝s·λ·e_cp (2)

在公式(2)中，s为无人机k访问节点的个数；e_cp为接收每单位量的节点数据所需能耗；

由于数据传输能耗远小于无人机飞行能耗，当无人机群数据收集完毕，为了减少无人机的飞行能耗，设定距离基站最近的无人机为中继无人机UAV_rp，用于将其他无人机的数据收集后统一发送给基站，无人机k的数据发送能耗表示为E_uav：

在公式(3)中，E_amp2为无人机内的发送放大器能耗；d为无人机之间的距离；R为提前设定的距离阈值，用于判断数据传输能耗增加，此为经验值；

所述中继无人机UAV_rp接收其他无人机数据能耗表示为E_re：

E_re＝N·λ·e_cp (4)

在公式(4)中，N为应用场景中的N个节点；

所述中继无人机UAV_rp将所有数据发送到基站能耗表示为E_tr：

E_tr＝N·λ·e_tp·E_amp2·r² (5)

在公式(5)中，r为中继无人机与基站之间的距离；

无人机行动能耗包括飞行能耗和悬停能耗，其中单位时间飞行能耗为e_f，单位时间悬停能耗为e_s；

为无人机k设置二维数组记录其飞行轨迹，其中a和b分别是地面节点：

如果无人机k不经过地面节点a和b之间的路径，则

否则

无人机k的总飞行距离表示为：

在公式(6)中，L_ab无人机从节点a到节点b的飞行距离；

无人机群将所有节点遍历，存在以下约束条件：

在公式(7)中，U为无人机群中无人机的总数；

将给定的数据收集任务时间Γ划分为T个时隙：

当无人机群完成数据收集任务花费t个时隙时，则任务时间存在以下约束：

t·Δt≤Γ (8)

在公式(8)中，Δt表示每个时隙的时间；

为避免多无人机协同工作时发生碰撞，设定安全距离d_safe，在任意时隙ts中，无人机i和无人机j之间存在以下约束：

在公式(9)中，表示在任意时隙ts中无人机i和无人机j之间的距离；

在每个时隙中,无人机k：

根据规划路径飞行到指定节点上方收集数据，并悬停等待通过改进的Q-Learning算法获得下一个未访问节点坐标，则其飞行总能耗表示为：

在公式(10)中，e_f为无人机单位时间飞行能耗；v为无人机飞行速度；

同样，无人机k在节点b的悬停能耗表示为：

则无人机k的悬停总能耗表示为：

则无人机k的行动总能耗为：

无人机携带的电池能量有限，假设无人机携带的电池最大电量为E_max，在无人机k能量消耗殆尽之前完成采集任务对应的约束：

E_cost<E_max (14)

在公式(14)中，E_cost为无人机任务完成时耗费的电池能量；

由于数据传输能耗一般远小于行动能耗，因此对数据采集任务只考虑优化行动能耗，即

在多无人机协作的数据采集任务中，最小化行动能耗E，则优化问题表述为：

步骤b.动态选择中继无人机：

由于农业生产区规模较大，无人机通信距离有限，不能直接将收集到的数据传输给基站，当所有节点访问完成后，根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机：

计算各无人机与基站的距离：

在公式(16)中，基站部署在地面上，其坐标为(x_s,y_s,0)；无人机k坐标为(x_k,y_k,H)；选择距离基站最近的无人机作为中继无人机，中继无人机接收其他无人机的所有数据飞往基站，进一步减少了无人机群的总体飞行能耗。

根据本发明优选的，通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括：

所述Q-Learning算法奖励函数不能在本应用场景中避免无人机群的碰撞情况；所述Q-Learning算法是强化学习中的一种算法，包括状态(S)，动作(A)，奖励(R)，Q表中记录了每个状态采取当前可能的动作能够得到的未来期望总奖励，当Q表更新完成后，主体根据Q表选择最优路径；

改进的Q-learning算法：即下文中对奖励函数的改进；

强化学习通过与环境进行交互获得奖励指导行为，可以使智能体获得最大的奖赏，用于解决具有未知状态转换动态的序列决策问题；通常，序列决策问题可以描述为马尔科夫决策过程(Markov decision process,MDP)，由元组<S,A,P,R,γ>描述，其中S是状态空间，A是动作空间，P是状态转换模型，R是奖励，γ∈[0,1]为折扣因子用来平衡当前和未来奖励重要性；

结合约束条件公式(7)、(8)、(9)、(14)，将最小化行动能耗问题转化为MDP，元组<S,A,R>解释为：

状态空间S：多无人机场景下，每个无人机悬停位置坐标；

动作空间A：设置飞行角度θ集合，动作a为以速度v、飞行角度θ移动；

奖励R：奖励根据目标函数和约束条件进行设计，奖励的设计对学习速度和质量起着重要作用，无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为：

R_t＝R_at+R_dt+R_st (16)

在公式(16)中，R_at为飞行旋转角度奖励；R_dt是节点距离奖励；R_st是安全距离约束奖励；

R_at与下一时间段无人机飞行角度大小有关，该奖励用于鼓励无人机减小飞行旋转角度，表示为：

在公式(17)中，α₁为奖励权重；θ_t+1为下一个时隙无人机的飞行旋转角度；

R_dt用于鼓励无人机访问距离更近的节点，以减少飞行路径，其表示如下：

在公式(18)中，α₂为奖励权重；d_max为所有节点距离的最大值；d_ab表示无人机t+1时隙从节点a到节点b的距离；

R_st用于避免多无人机协同工作发生碰撞，当两个无人机距离过近时给予惩罚，鼓励无人机之间保持安全距离：

在公式(19)中，α₃为奖励权重；d_ij为无人机i和无人机j之间的距离；d_safe为设定的无人机之间的安全距离；

以上述无人机飞行角度转变，节点距离奖励和安全距离约束作为奖励函数，初始化Q表并更新，更新公式如下：

NewQ(s_t,a_t)＝Q(s_t,a_t)+α[R(s_t,a_t)+γmax_a′Q(s_t+1,a′)-Q(s_t,a_t)] (20)

在公式(20)中，α为学习率；γ为折扣因子；NewQ(s_t,a_t)：状态s_t和动作a_t的更新后的新Q值；Q(s_t,a_t)：状态s_t和动作a_t的Q值；R(s_t,a_t)：状态s_t和动作a_t的奖励；max_a′Q(s_t+1,a′)：新的状态s_t+1和该状态下所有可能的行动a′的最大预期未来奖励；

当Q表迭代完成后，根据Q值指导无人机的飞行路线。

根据本发明优选的，在所述步骤a之前还包括：定义实际应用场景：

应用场景中共N个节点，U个无人机，节点n的坐标为(x_n,y_n)，无人机k的坐标为(x_k,y_k,H)，H为无人机的飞行高度；无人机从节点a到节点b的飞行距离为:

在公式(21)中，节点a的坐标为(x_a，y_a)，节点b的坐标为(x_b，y_b)；记录无人机数据收集情况：记录未访问节点集合A_node和已访问节点集合S_node。

本发明的技术优势在于：

1、本发明基于强化学习的Q学习算法，改进了奖励函数，加入了碰撞避免、飞行角度变化和节点距离约束，智能规划无人机群的飞行路径，保证了无人机群飞行安全的同时提高了数据收集效率。

2、本发明的无人机群在开始数据收集任务前，已知场景中所有节点坐标，利用改进的Q-Learning算法可以直接获得各个无人机的飞行路径。

3、本发明采用无人机群执行协同数据收集任务，可以降低单个无人机的能量消耗，避免单个无人机因能耗问题导致任务失败，更好地适应大规模农场场景中物联网网络的节点数据收集。

4、本发明还根据实际场景，按照无人机与基站位置距离关系动态选择中继无人机，收集其他无人机数据后飞往基站进行数据传输，进一步减少了无人机群的总体能耗。

附图说明

图1是本发明无人机群协同数据收集场景图；

图2是本发明无人机群协同数据收集示意图。

具体实施方式

下面结合实施例对本发明做详细的说明，但不限于此。

无人机群协同数据收集应用于大规模传感器网络，能够实现对作物的实时检测，提高生产效率，有限的电池能量严重影响了无人机数据收集的性能。为有效减少无人机的能量消耗，提高收集任务效率，需要规划无人机群的飞行路径。基于强化学习的Q学习算法，设计出一种考虑了碰撞避免、飞行角度变化和节点距离约束的智能轨迹优化方法，为无人机群在大规模农业生产中辅助数据收集提供了一种可靠方法。

实施例1、

如图1所示，假设在面积为1000×2000m的大规模农业生产区中共分布20个传感器节点，基站设置在上述农业生产区的边缘，利用本发明所述方法、使用3个无人机协同完成数据收集任务。

一种基于Q学习的能量受限物联网数据采集和融合方法，包括：

步骤a.建立无人机群能耗模型：

E_node＝λ·e_tp·E_amp1·H² (1)

E_cp＝s·λ·e_cp (2)

所述中继无人机UAV_rp接收其他无人机数据能耗表示为E_re：

E_re＝N·λ·e_cp (4)

在公式(4)中，N为应用场景中的N个节点；

所述中继无人机UAV_rp将所有数据发送到基站能耗表示为E_tr：

E_tr＝N·λ·e_tp·E_amp2·r² (5)

在公式(5)中，r为中继无人机与基站之间的距离；

如果无人机k不经过地面节点a和b之间的路径，则

否则

无人机k的总飞行距离表示为：

在公式(6)中，L_ab无人机从节点a到节点b的飞行距离；

无人机群将所有节点遍历，存在以下约束条件：

在公式(7)中，U为无人机群中无人机的总数；

将给定的数据收集任务时间Γ划分为T个时隙：

t·Δt≤Γ (8)

在公式(8)中，Δt表示每个时隙的时间；

在每个时隙中,无人机k：

同样，无人机k在节点b的悬停能耗表示为：

则无人机k的悬停总能耗表示为：

则无人机k的行动总能耗为：

E_cost<E_max (14)

在公式(14)中，E_cost为无人机任务完成时耗费的电池能量；

步骤b.动态选择中继无人机：

计算各无人机与基站的距离：

如图2所示，无人机群按照本发明提出的方法进行路径规划，访问所有传感器节点，最后根据无人机群的位置选取中继无人机，收集所有其他无人机的数据并飞往基站，完成数据收集任务。

本实施例的技术优势在于：1.无人机群和节点可以在场景中随机部署；2.无人机和节点个数可根据实际情况增加或减少；3.无人机群根据路径规划访问节点有效较少了能量消耗。

实施例2、

如实施例1所述的方法，其中，通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括：

改进的Q-learning算法：即下文中对奖励函数的改进；

状态空间S：多无人机场景下，每个无人机悬停位置坐标；

R_t＝R_at+R_dt+R_st (16)

当Q表迭代完成后，根据Q值指导无人机的飞行路线。

实施例3、

如实施例1、2所述方法，在所述步骤a之前还包括：定义实际应用场景：

在公式(1)中，节点a的坐标为(x_a，y_a)，节点b的坐标为(x_b，y_b)；记录无人机数据收集情况：记录未访问节点集合A_node和已访问节点集合S_node。

Claims

1.一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，包括：

步骤a.建立无人机群能耗模型：

无人机执行任务的能耗包括无人机数据传输能耗和行动能耗；

E_node＝λ·e_tp·E_amp1·H² (1)

在公式(1)中，λ为节点数据的数据量；e_tp为发送每单位量的节点数据所需能耗；E_amp1为节点内发送放大器能耗；H为节点到无人机的距离；

E_cp＝s·λ·e_cp (2)

设定距离基站最近的无人机为中继无人机UAV_rp，用于将其他无人机的数据收集后统一发送给基站，无人机k的数据发送能耗表示为E_uav：

在公式(3)中，E_amp2为无人机内的发送放大器能耗；d为无人机之间的距离；R为提前设定的距离阈值；

所述中继无人机UAV_rp接收其他无人机数据能耗表示为E_re：

E_re＝N·λ·e_cp (4)

在公式(4)中，N为应用场景中的N个节点；

所述中继无人机UAV_rp将所有数据发送到基站能耗表示为E_tr：

E_tr＝N·λ·e_tp·E_amp2·r² (5)

在公式(5)中，r为中继无人机与基站之间的距离；

如果无人机k不经过地面节点a和b之间的路径，则

否则

无人机k的总飞行距离表示为：

在公式(6)中，L_ab无人机从节点a到节点b的飞行距离；

无人机群将所有节点遍历，存在以下约束条件：

在公式(7)中，U为无人机群中无人机的总数；

将给定的数据收集任务时间Γ划分为T个时隙：

t·Δt≤Γ (8)

在公式(8)中，Δt表示每个时隙的时间；

设定安全距离d_safe，在任意时隙ts中，无人机i和无人机j之间存在以下约束：

在每个时隙中,无人机k：

同样，无人机k在节点b的悬停能耗表示为：

则无人机k的悬停总能耗表示为：

则无人机k的行动总能耗为：

无人机携带的电池最大电量为E_max，在无人机k能量消耗殆尽之前完成采集任务对应的约束：

E_cost<E_max (14)

在公式(14)中，E_cost为无人机任务完成时耗费的电池能量；

对数据采集任务优化行动能耗，即

步骤b.动态选择中继无人机：

当所有节点访问完成后，根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机：

计算各无人机与基站的距离：

在公式(16)中，基站部署在地面上，其坐标为(x_s,y_s,0)；无人机k坐标为(x_k,y_k,H)；选择距离基站最近的无人机作为中继无人机，中继无人机接收其他无人机的所有数据飞往基站。

2.根据权利要求1所述的一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，通过改进的Q-Learning算法获得下一个未访问节点坐标的方法包括：

状态空间S：多无人机场景下，每个无人机悬停位置坐标；

奖励R：无人机群收集物联网中节点存储数据的路径规划问题在多无人机场景下数据采集的奖励函数表示为：

R_t＝R_at+R_dt+R_st (16)

当Q表迭代完成后，根据Q值指导无人机的飞行路线。

3.根据权利要求1或2所述的一种基于Q学习的能量受限物联网数据采集和融合方法，其特征在于，在所述步骤a之前还包括：定义实际应用场景：