CN112672307B - 一种基于q学习的无人机辅助数据收集系统及方法 - Google Patents

一种基于q学习的无人机辅助数据收集系统及方法 Download PDF

Info

Publication number
CN112672307B
CN112672307B CN202110288828.1A CN202110288828A CN112672307B CN 112672307 B CN112672307 B CN 112672307B CN 202110288828 A CN202110288828 A CN 202110288828A CN 112672307 B CN112672307 B CN 112672307B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
wireless sensor
data
sensor node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110288828.1A
Other languages
English (en)
Other versions
CN112672307A (zh
Inventor
虞晓韩
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202110288828.1A priority Critical patent/CN112672307B/zh
Publication of CN112672307A publication Critical patent/CN112672307A/zh
Application granted granted Critical
Publication of CN112672307B publication Critical patent/CN112672307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于Q学习的无人机辅助数据收集系统及方法,其系统包括:基站;无人机;地面感知区域,分割为数个区块;无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;无线数据收发器,搭载于无人机上,无线数据收发器与无线传感器节点交互,以获取数据包;数据处理器包括数据处理模块和Q学习模块,数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据信息年龄动态调整Q学习算法,以确定无人机的飞行动作。本发明能快速高效地收集无线传感器网络的数据。

Description

一种基于Q学习的无人机辅助数据收集系统及方法
技术领域
本发明属于无线通信网络和机器学习技术领域,具体涉及在无线传感器网络中的一种基于Q学习的无人机辅助数据收集系统及方法。
背景技术
随着无线通信领域技术的日益发展,基于无线传感器网络的物联网技术正处于蓬勃发展的阶段,大量异构设备正在不断接入物联网,随之而来的问题便是传统的数据收集方法越来越不能适应新的需求。由于无人机的高移动性和可操作性,基于无人机辅助来收集空旷地面的传感器数据方法被认为是一种有效的方法。在基于无人机辅助的数据收集方法中,无人机既可以扮演移动基站的角色也可以扮演数据转发节点的角色。
物联网中大量的传感器是能量受限的,一旦能量消耗完传感器就无法正常工作,因此,在保证物联网正常工作的前提下,如何延长传感器的使用寿命是一个极富挑战性的任务。在基于无人机辅助的数据收集方法中,无人机可以直接飞到传感器上方,通过低空视距内的无线链接直接与传感器通信,这可以大大降低传感器的能量消耗,从而延长传感器的使用寿命。
物联网的状态是高度动态的,很难找到不同状态之间相互转换的规律,并且不同状态之间的转换规律变化也很快,因此,在基于无人机辅助的数据收集方法中,传统的基于马尔科夫动态规划的方法,例如,公开号为CN110073301A的专利文献公开的工业物联网中具有大数据集的数据收集环境下的检测方法,效果不是很好。然而,基于智能体-环境交互思想的强化学习方法可以很好适应高度动态的环境,它不需要知道环境不同状态之间的转换规律,通过不断学习改进的思想来寻找最优的解决方案,例如,公开号为CN111867139A的专利文献公开的一种基于Q学习的深度神经网络自适应退避策略实现方法及系统。
因此,有必要将传统的基于多跳模式的数据收集方法与强化学习中的Q学习方法相结合,在无人机的辅助下,快速高效地收集无线传感器网络的数据。
发明内容
基于现有技术中的不足之处,本发明提供一种基于Q学习的无人机辅助数据收集系统及方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于Q学习的无人机辅助数据收集系统,包括:
基站;
无人机;
地面感知区域,分割为数个区块;
无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;
无线数据收发器,搭载于无人机上;当无人机飞抵至无线传感器节点上方时,无线数据收发器与无线传感器节点交互,以获取无线传感器节点的数据包;
数据处理器,搭载于无人机上;数据处理器包括数据处理模块和Q学习模块,数据处理模块与无线数据收发器通信连接,Q学习模块与无人机通信连接;数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法,以确定无人机的飞行动作;Q学习模块还用于将无人机的飞行动作的指令发送至无人机;
当无人机飞抵至无线传感器节点上方时,无线数据收发器还用于将感知数据转发给基站。
作为优选方案,所述Q学习模块包括:
收益函数单元,用于根据无线传感器节点的信息年龄计算对应的收益函数值;
Q表更新单元,用于根据收益函数值动态更新Q表;
动作生成单元,用于根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作;
其中,无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长被划分为等长的T个时隙,时隙的大小取值应确保无人机能够在一个时隙内完成感知数据的转发任务以及抽样采取的飞行动作,T为整数。
作为优选方案,所述地面感知区域分割为L 2个区块,L为大于1的整数;
所述无线传感器节点有K个,第k个无线传感器节点的位置为
Figure DEST_PATH_IMAGE001
,其 中,
Figure DEST_PATH_IMAGE002
K为大于1的整数;
在第t个时隙,无人机的位置为
Figure DEST_PATH_IMAGE003
在第t个时隙,第k个无线传感器节点生成数据包的个数为
Figure DEST_PATH_IMAGE004
在第t个时隙,当第k个无线传感器节点生成了一个数据包,即
Figure DEST_PATH_IMAGE005
,若无人 机正好位于第k个无线传感器节点的上方,即
Figure DEST_PATH_IMAGE006
,则服务参数
Figure DEST_PATH_IMAGE007
;否则, 服务参数
Figure DEST_PATH_IMAGE008
在第t个时隙,第k个无线传感器节点的最新数据包寿命为:
Figure DEST_PATH_IMAGE009
在第t个时隙,第k个无线传感器节点的信息年龄为:
Figure DEST_PATH_IMAGE010
在第t个时隙,无线传感器网络的平均信息年龄为
Figure DEST_PATH_IMAGE011
在第t个时隙,无人机的状态为
Figure DEST_PATH_IMAGE012
在第t个时隙,无人机采取的飞行动作为
Figure DEST_PATH_IMAGE013
,其中,
Figure DEST_PATH_IMAGE014
为无人机在状态s t 下 所有可能采取飞行动作的集合,NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块 的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块;
在无人机的状态s t 下,采取飞行动作a t 之后所得到的收益函数值为
Figure DEST_PATH_IMAGE015
作为优选方案,所述Q表的更新标准为:
Figure DEST_PATH_IMAGE016
其中,s t a t 为第t个时隙的无人机的状态和已经采取的飞行动作,s t+1a为第t+1 个时隙的无人机的状态和可采取的飞行动作,r t 为第t个时隙无人机根据接收到的数据计 算得到的收益函数值;
Figure DEST_PATH_IMAGE017
,为Q表更新步长;
Figure DEST_PATH_IMAGE018
,为折扣系数;
更新完成之后,在当前时隙的无人机的状态s下,使得Q值最大的动作为当前时隙无人机的最优动作,即:
Figure DEST_PATH_IMAGE019
这里注意,a *为最优动作,但不一定是无人机实际采取的动作。
作为优选方案,所述根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作,包括:
根据概率分布
Figure DEST_PATH_IMAGE020
抽样一个飞行动 作;其中,
Figure DEST_PATH_IMAGE021
为贪心选择概率,
Figure DEST_PATH_IMAGE022
。其中,无人机实际采取的飞行动作为一个随 机抽样的飞行动作,该动作根据概率分布随机抽样而来。
作为优选方案,所述数据处理器还用于判断时隙的个数是否达到T;若是,则控制无人机返航。
作为优选方案,所述无线数据收发器包括GPS定位模块和射频通信模块,GPS定位模块用于定位无人机的位置;射频通信模块用于与基站、无线传感器节点交互。
本发明还提供一种基于Q学习的无人机辅助数据收集方法,基于如上方案所述的无人机辅助数据收集系统,所述无人机辅助数据收集方法,包括以下步骤:
S1、初始化参数:步长
Figure 860516DEST_PATH_IMAGE017
,贪心选择概率
Figure 222358DEST_PATH_IMAGE022
,时隙个数T,折 扣系数
Figure 107138DEST_PATH_IMAGE018
,对无人机的所有状态s和飞行动作a,从0到1的均匀分布中随机抽样一 个值赋予Q(s, a),并将无人机终止执行数据收集任务的状态的Q值设为0;
S2、初始化无人机的初始状态s 1,随机抽样一个初始动作a 1
S3、判断是否获取无线传感器节点的数据包;若是,则转至步骤S4;若否,则转至步骤S6;
S4、对接收到的数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;根据接收到的无线传感器节点的信息年龄计算对应的收益函数值;还将感知数据转发给基站;
S5、根据收益函数值动态更新Q表;
S6、基于当前时隙的Q表和无人机的状态,根据概率分布抽样一个飞行动作;
S7、无人机执行抽样的飞行动作,以进入下一状态;
S8、判断无人机运行的时隙个数是否大于T;若是,则转至步骤S9;若否,则转至步骤S3;
S9、无人机返航,充满电后继续辅助执行数据收集任务,返回至步骤S2。
本发明与现有技术相比,有益效果是:
本发明的基于Q学习的无人机辅助数据收集系统,无线数据收发器负责实时接收和发送数据,数据处理器的数据处理模块负责对接收到的数据包进行数据处理,从而得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄,Q学习模块根据无线传感器节点的信息年龄动态调整Q学习算法,从而确定无人机的飞行动作,无人机执行相应的飞行动作;其中,数据处理器包含Q学习模块和数据处理模块,是整个系统的核心,相互协作以最优地控制无人机飞行。本发明将传统的基于多跳模式的数据收集方法与强化学习中的Q学习方法相结合,在无人机的辅助下,快速高效地收集无线传感器网络的数据。
附图说明
图1为本发明实施例的基于Q学习的无人机辅助数据收集系统的应用模型图;
图2为本发明实施例的基于Q学习的无人机辅助数据收集系统的框架示意图;
图3为本发明实施例的基于Q学习的无人机辅助数据收集方法的流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
如图1和2所示,本发明实施例的基于Q学习的无人机辅助数据收集系统,包括基站、无人机、地面感知区域、无线传感器网络、无线数据收发器和数据处理器,无线传感器网络包括布设于地面感知区域的多个无线传感器节点,无线传感器节点用于实时感知环境并生成数据包,数据包的数据包括例如温度、湿度等感知数据以及传感器自身的参数。
其中,基站的最终目标是获取各无线传感器节点的感知数据;
本发明实施例的地面感知区域被分割为数个区块;具体地,地面感知区域被分割 为L 2个区块,L为大于1的整数;每个区块是边长为l的正方形,每个区块的坐标为(i, j),其 中,i, j=1,2,...,LL的取值大到使得每个区块最多只包含一个无线传感器节点;基于此, 本发明实施例的无线传感器节点的数量有K个,第k个无线传感器节点的位置为
Figure 981028DEST_PATH_IMAGE001
,其中,
Figure 242245DEST_PATH_IMAGE002
K为大于1的整数。
本发明实施例的无线数据收发器搭载于无人机上;当无人机飞抵至无线传感器节点的上方时,无线数据收发器与无线传感器节点和基站交互,无线数据收发器将数据包的感知数据转发给基站。具体地,无线数据收发器包括GPS定位模块和射频通信模块,GPS定位模块用于定位无人机的位置(即无人机的状态),射频通信模块用于与基站、无线传感器节点交互。
本发明实施例的数据处理器搭载于无人机上;数据处理器包括通信连接的数据处理模块和Q学习模块,数据处理模块与无线数据收发器的射频通信模块通信连接,Q学习模块与无人机通信连接。
其中,数据处理模块用于对接收的数据包进行数据处理,以得到基站所需的感知数据(即环境参数)和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法,以确定无人机的飞行动作;Q学习模块还用于将无人机的飞行动作的指令发送至无人机,以便无人机根据指令执行相应的飞行动作。
本发明实施例将无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长划分为等长的T个时隙,时隙的大小T s 应该确保无人机能够在单个时隙内完成感知数据的转发任务以及抽样采取的飞行动作。
相应地,本发明实施例的Q学习模块包括:
收益函数单元,用于根据无线传感器节点的信息年龄计算对应的收益函数值;
Q表更新单元,用于根据收益函数值动态更新Q表;
动作生成单元,用于根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作;
具体地,在第t个时隙,无人机的位置为
Figure 458594DEST_PATH_IMAGE003
在第t个时隙,第k个无线传感器节点生成数据包的个数为
Figure 514275DEST_PATH_IMAGE004
在第t个时隙,当第k个无线传感器节点生成了一个数据包,即
Figure 81653DEST_PATH_IMAGE005
,若无人 机正好位于第k个无线传感器节点的上方,即
Figure 428452DEST_PATH_IMAGE006
,则服务参数
Figure 14154DEST_PATH_IMAGE007
;否则, 服务参数
Figure 254118DEST_PATH_IMAGE008
在第t个时隙,第k个无线传感器节点的最新数据包寿命为:
Figure 558061DEST_PATH_IMAGE009
在第t个时隙,第k个无线传感器节点的信息年龄为:
Figure 646234DEST_PATH_IMAGE010
在第t个时隙,无线传感器网络的平均信息年龄为
Figure 86442DEST_PATH_IMAGE011
在第t个时隙,无人机的状态为
Figure 234658DEST_PATH_IMAGE012
在第t个时隙,无人机采取的飞行动作为
Figure 822634DEST_PATH_IMAGE013
,其中,
Figure 448919DEST_PATH_IMAGE014
为无人机在状态s t 下 所有可能采取飞行动作的集合,NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块 的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块;
在无人机的状态s t 下,采取飞行动作a t 之后所得到的收益函数值为
Figure 9213DEST_PATH_IMAGE015
另外,本发明实施例的Q表更新单元对Q表的更新标准为:
Figure 387717DEST_PATH_IMAGE016
其中,s t a t 为第t个时隙的无人机的状态和已经采取的飞行动作,s t+1a为第t+1 个时隙的无人机的状态和可采取的飞行动作,r t 为第t个时隙无人机根据接收到的数据计 算得到的收益函数值;
Figure 151405DEST_PATH_IMAGE017
,为Q表更新步长;
Figure 830648DEST_PATH_IMAGE018
,为折扣系数;
更新完成之后,在当前时隙的无人机的状态s下,使得Q值最大的动作为当前时隙无人机的最优动作,即:
Figure 792919DEST_PATH_IMAGE019
这里注意,a *为最优动作,但不一定是无人机实际采取的动作。
根据当前时隙的Q表和无人机的状态,无人机实际采取的飞行动作为一个随机抽样的飞行动作,该飞行动作根据以下概率分布随机抽样而来:
Figure 797784DEST_PATH_IMAGE020
其中,
Figure 48768DEST_PATH_IMAGE021
为贪心选择概率,
Figure 531702DEST_PATH_IMAGE022
另外,本发明实施例的数据处理器还用于判断时隙的个数是否达到T;若是,则终止辅助数据收集任务,由动作生成单元发出终止状态的指令至无人机,控制无人机返航。
基于上述本发明实施例的基于Q学习的无人机辅助数据收集系统,如图3所示,本发明实施例还提供基于Q学习的无人机辅助数据收集方法,包括以下步骤:
S1、初始化参数:步长
Figure 814391DEST_PATH_IMAGE017
,贪心选择概率
Figure 990157DEST_PATH_IMAGE022
,时隙个数T,折 扣系数
Figure 728437DEST_PATH_IMAGE018
,对无人机的所有状态s和飞行动作a,从0到1的均匀分布中随机抽样一 个值赋予Q(s, a),并将无人机终止执行数据收集任务的状态的Q值设为0;
S2、初始化无人机的初始状态s 1,随机抽样一个初始动作a 1
S3、判断是否获取无线传感器节点的数据包;若是,则转至步骤S4;若否,则转至步骤S6;
S4、对接收到的数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;根据接收到的无线传感器节点的信息年龄计算对应的收益函数值;还将感知数据转发给基站;
S5、根据收益函数值动态更新Q表;
S6、基于当前时隙的Q表和无人机的状态,根据概率分布抽样一个飞行动作;
S7、无人机执行抽样的飞行动作,以进入下一状态;
S8、判断无人机运行的时隙个数是否大于T;若是,则转至步骤S9;若否,则转至步骤S3;S9、无人机返航,充满电后继续辅助执行数据收集任务,返回至步骤S2。
以下通过具体示例对本发明实施例的基于Q学习的无人机辅助数据收集的原理进行详细说明:
为了方便描述,假设感知区域为一个10m×10m的正方形,整个感知区域被分为102个区块,即L=10,l=1m。
假设只有在区块C(k, k)中有一个无线传感器节点,即K=10,且
Figure DEST_PATH_IMAGE023
k= 1,2,...,10。
假设每个无线传感器节点在每个时隙都均匀地生成一个数据包,即
Figure 562532DEST_PATH_IMAGE005
k =1,2,...,10,t=1,2,...,T
初始化参数
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
假设一开始,即当t=1时,无人机位于区块(1,1)(在感知区域的最西南方)的上方, 且从可采取的动作集合
Figure DEST_PATH_IMAGE028
中随机抽取了一个动作a 1=NE,即
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
。此时,
Figure DEST_PATH_IMAGE031
,即第1个无线传感器节点的服务参数为1, 第1个无线传感器节点可通过无人机将感知数据转发给基站,基站收集到了第1个无线传感 器节点的感知数据。
在第1个时隙结束时,各无线传感器节点的最新数据包寿命为
Figure DEST_PATH_IMAGE032
,各无线传感器节点的信息寿命为
Figure DEST_PATH_IMAGE033
, 平均信息寿命为
Figure DEST_PATH_IMAGE034
,收益函数值为
Figure DEST_PATH_IMAGE035
在第2个时隙,无人机进入状态
Figure DEST_PATH_IMAGE036
,第2个传感器可通过无人机将感知数 据转发给基站。
然后,Q学习模块根据收益函数值更新Q表中的数据
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
同时,在当前状态下,无人机位于感知区域内部,其能够采取的飞行动作集合为:
Figure DEST_PATH_IMAGE039
假设在当前时隙,在状态
Figure DEST_PATH_IMAGE040
的条件下,飞行动作NE对应的Q值最大,即:
Figure DEST_PATH_IMAGE041
因此,飞行动作的概率分布为:
Figure DEST_PATH_IMAGE042
假设动作生成单元抽样并生成了飞行动作
Figure DEST_PATH_IMAGE043
(因为抽样到飞行动作NE的 概率为99.375%),无人机执行该飞行动作并飞行进入区块(3,3)的上方,无人机的下一状态 为
Figure DEST_PATH_IMAGE044
,位于该区域无线传感器节点的服务参数为
Figure DEST_PATH_IMAGE045
,此时第3个无线传感 器节点可将感知数据通过无人机转发给基站,基站收集到了第3个无线传感器节点的感知 数据。
在第2个时隙结束时,各无线传感器节点的最新数据包寿命和信息年龄分别为:
Figure DEST_PATH_IMAGE046
由此,数据处理模块可计算得到平均信息年龄为
Figure DEST_PATH_IMAGE047
,收益函数值为
Figure DEST_PATH_IMAGE048
然后,Q学习模块根据收益函数值更新Q表中的数据
Figure DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
在每一个时隙,重复以上过程,直到时隙的个数达到T=10000,无人机返航进行充电。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (4)

1.一种基于Q学习的无人机辅助数据收集系统,其特征在于,包括:
基站;
无人机;
地面感知区域,分割为数个区块;
无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;
无线数据收发器,搭载于无人机上;当无人机飞抵至无线传感器节点上方时,无线数据收发器与无线传感器节点交互,以获取无线传感器节点的数据包;
数据处理器,搭载于无人机上;数据处理器包括数据处理模块和Q学习模块,数据处理模块与无线数据收发器通信连接,Q学习模块与无人机通信连接;数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法,以确定无人机的飞行动作;Q学习模块还用于将无人机的飞行动作的指令发送至无人机;
当无人机飞抵至无线传感器节点上方时,无线数据收发器还用于将感知数据转发给基站;
所述Q学习模块包括:
收益函数单元,用于根据无线传感器节点的信息年龄计算对应的收益函数值;
Q表更新单元,用于根据收益函数值动态更新Q表;
动作生成单元,用于根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作;
其中,无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长被划分为等长的T个时隙,时隙的大小取值应确保无人机能够在一个时隙内完成感知数据的转发任务以及抽样采取的飞行动作,T为整数;
所述地面感知区域分割为L2个区块,L为大于1的整数;
所述无线传感器节点有K个,第k个无线传感器节点的位置为Nk=(xk,yk),其中,xk,yk=1,2,...,L,k=1,2,...,K,K为大于1的整数;
在第t个时隙,无人机的位置为u(t)∈{(i,j):i,j=1,2,...,L},t=1,2,...,T;
在第t个时隙,第k个无线传感器节点生成数据包的个数为gk(t)∈{0,1};
在第t个时隙,当第k个无线传感器节点生成了一个数据包,即gk(t)=1,若无人机正好位于第k个无线传感器节点的上方,即u(t)=Nk,则服务参数Sk(t)=1;否则,服务参数Sk(t)=0;
在第t个时隙,第k个无线传感器节点的最新数据包寿命为:
Figure FDA0003037054850000011
在第t个时隙,第k个无线传感器节点的信息年龄为:
Figure FDA0003037054850000021
在第t个时隙,无线传感器网络的平均信息年龄为
Figure FDA0003037054850000022
在第t个时隙,无人机的状态为st=u(t)=(i,j);
在第t个时隙,无人机采取的飞行动作为
Figure FDA0003037054850000023
其中,B(st)为无人机在状态st下所有可能采取飞行动作的集合,NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块;
在无人机的状态st下,采取飞行动作at之后所得到的收益函数值为
Figure FDA0003037054850000024
所述Q表的更新标准为:
Q(st,at)←Q(st,at)+α[rt+γmaxaQ(st+1,a)-Q(st,at)]
其中,st和at为第t个时隙的无人机的状态和已经采取的飞行动作,st+1和a为第t+1个时隙的无人机的状态和可采取的飞行动作,rt为第t个时隙无人机根据接收到的数据计算得到的收益函数值;α∈(0,1),为Q表更新步长;γ∈(0,1],为折扣系数;
更新完成之后,在当前时隙的无人机的状态s下,使得Q值最大的动作a°为当前时隙无人机的最优动作,即:
a*=argmaxa Q(s,a);
所述根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作,包括:
根据概率分布
Figure FDA0003037054850000025
抽样一个飞行动作;其中,ε为贪心选择概率,ε∈(0,0.1)。
2.根据权利要求1所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述数据处理器还用于判断时隙的个数是否达到T;若是,则控制无人机返航。
3.根据权利要求1所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述无线数据收发器包括GPS定位模块和射频通信模块,GPS定位模块用于定位无人机的位置;射频通信模块用于与基站、无线传感器节点交互。
4.一种基于Q学习的无人机辅助数据收集方法,基于如权利要求2所述的无人机辅助数据收集系统,其特征在于,所述无人机辅助数据收集方法,包括以下步骤:
S1、初始化参数:步长α∈(0,1),贪心选择概率ε∈(0,0.1),时隙个数T,折扣系数γ∈(0,1],对无人机的所有状态s和飞行动作a,从0到1的均匀分布中随机抽样一个值赋予Q(s,a),并将无人机终止执行数据收集任务的状态的Q值设为0;
S2、初始化无人机的初始状态s1,随机抽样一个初始动作a1
S3、判断是否获取无线传感器节点的数据包;若是,则转至步骤S4;若否,则转至步骤S6;
S4、对接收到的数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;根据接收到的无线传感器节点的信息年龄计算对应的收益函数值;还将感知数据转发给基站;
S5、根据收益函数值动态更新Q表;
S6、基于当前时隙的Q表和无人机的状态,根据概率分布抽样一个飞行动作;
S7、无人机执行抽样的飞行动作,以进入下一状态;
S8、判断无人机运行的时隙个数是否大于T;若是,则转至步骤S9;若否,则转至步骤S3;
S9、无人机返航,充满电后继续辅助执行数据收集任务,返回至步骤S2。
CN202110288828.1A 2021-03-18 2021-03-18 一种基于q学习的无人机辅助数据收集系统及方法 Active CN112672307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288828.1A CN112672307B (zh) 2021-03-18 2021-03-18 一种基于q学习的无人机辅助数据收集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288828.1A CN112672307B (zh) 2021-03-18 2021-03-18 一种基于q学习的无人机辅助数据收集系统及方法

Publications (2)

Publication Number Publication Date
CN112672307A CN112672307A (zh) 2021-04-16
CN112672307B true CN112672307B (zh) 2021-06-29

Family

ID=75399571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288828.1A Active CN112672307B (zh) 2021-03-18 2021-03-18 一种基于q学习的无人机辅助数据收集系统及方法

Country Status (1)

Country Link
CN (1) CN112672307B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113258982B (zh) * 2021-04-22 2022-10-14 北京航空航天大学 卫星信息传输方法、装置、设备、介质及产品
CN113472842B (zh) * 2021-05-24 2023-01-10 北京邮电大学 移动边缘计算网络中的用户状态感知方法及相关设备
CN113848868B (zh) * 2021-10-18 2023-09-22 东南大学 一种意图驱动的强化学习路径规划方法
CN115714793B (zh) * 2022-11-08 2023-09-15 大连海事大学 一种工业物联网中感知信息按需传输方法
CN115987372B (zh) * 2022-12-05 2024-09-17 中国联合网络通信集团有限公司 一种信号源筛选输出方法、装置、处理器系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392357A (zh) * 2019-06-21 2019-10-29 广东工业大学 一种无人机辅助物联网通信装置的资源分配控制方法
CN110596734A (zh) * 2019-09-17 2019-12-20 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源系统及方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN111683375A (zh) * 2020-05-08 2020-09-18 北京科技大学 一种针对无人机辅助无线蜂窝网络的无人机部署优化方法
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392357A (zh) * 2019-06-21 2019-10-29 广东工业大学 一种无人机辅助物联网通信装置的资源分配控制方法
CN110596734A (zh) * 2019-09-17 2019-12-20 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源系统及方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN111683375A (zh) * 2020-05-08 2020-09-18 北京科技大学 一种针对无人机辅助无线蜂窝网络的无人机部署优化方法
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站

Also Published As

Publication number Publication date
CN112672307A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112672307B (zh) 一种基于q学习的无人机辅助数据收集系统及方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
Iova et al. Rpl: The routing standard for the internet of things... or is it?
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
US12108320B2 (en) Clustering and routing method and system for wireless sensor networks
CN106686686B (zh) 一种用于作物温室栽培的无线传感器网络自组网方法
CN105722179B (zh) 一种协作中继系统信息吞吐量最大化的无线能量传输方法
CN103997748B (zh) 一种基于混合型传感器网络的差异覆盖方法
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
CN113055078B (zh) 有效信息年龄确定方法、以及无人机飞行轨迹优化方法
CN110167097B (zh) 基于加权度量转发和路径规划的移动机器人中继路由方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
Qi et al. CDS-based topology control in FANETs via power and position optimization
CN115173923B (zh) 一种低轨卫星网络能效感知路由优化方法和系统
CN105430662A (zh) 一种微功率无线通信网络的组网方法
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法
CN110442171A (zh) 楼宇环境控制方法、装置、设备、存储介质及系统
CN116668556A (zh) 一种基于网络状态的无人集群路由协议切换方法
CN108882298B (zh) 一种干扰受限的无线多跳网络联合拥塞控制与功率分配的二阶方法
Chu et al. Fast or slow: An autonomous speed control approach for UAV-assisted IoT data collection networks
CN115696494A (zh) 一种基于蚁群优化的大规模自组网多点中继选择方法
Liu et al. A greedy-model-based reinforcement learning algorithm for Beyond-5G cooperative data collection
CN114879726A (zh) 一种基于多无人机辅助数据收集的路径规划方法
CN108307411B (zh) 基于生物启发的移动自组织网络自适应网关选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant