CN112672307B

CN112672307B - 一种基于q学习的无人机辅助数据收集系统及方法

Info

Publication number: CN112672307B
Application number: CN202110288828.1A
Authority: CN
Inventors: 虞晓韩; 陈超
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-29
Anticipated expiration: 2041-03-18
Also published as: CN112672307A

Abstract

本发明涉及一种基于Q学习的无人机辅助数据收集系统及方法，其系统包括：基站；无人机；地面感知区域，分割为数个区块；无线传感器网络，包括布设于地面感知区域的多个无线传感器节点，每一区块最多包含一个无线传感器节点；无线传感器节点用于实时感知环境并生成数据包；无线数据收发器，搭载于无人机上，无线数据收发器与无线传感器节点交互，以获取数据包；数据处理器包括数据处理模块和Q学习模块，数据处理模块用于对数据包进行数据处理，以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄；Q学习模块用于根据信息年龄动态调整Q学习算法，以确定无人机的飞行动作。本发明能快速高效地收集无线传感器网络的数据。

Description

一种基于Q学习的无人机辅助数据收集系统及方法

技术领域

本发明属于无线通信网络和机器学习技术领域，具体涉及在无线传感器网络中的一种基于Q学习的无人机辅助数据收集系统及方法。

背景技术

随着无线通信领域技术的日益发展，基于无线传感器网络的物联网技术正处于蓬勃发展的阶段，大量异构设备正在不断接入物联网，随之而来的问题便是传统的数据收集方法越来越不能适应新的需求。由于无人机的高移动性和可操作性，基于无人机辅助来收集空旷地面的传感器数据方法被认为是一种有效的方法。在基于无人机辅助的数据收集方法中，无人机既可以扮演移动基站的角色也可以扮演数据转发节点的角色。

物联网中大量的传感器是能量受限的，一旦能量消耗完传感器就无法正常工作，因此，在保证物联网正常工作的前提下，如何延长传感器的使用寿命是一个极富挑战性的任务。在基于无人机辅助的数据收集方法中，无人机可以直接飞到传感器上方，通过低空视距内的无线链接直接与传感器通信，这可以大大降低传感器的能量消耗，从而延长传感器的使用寿命。

物联网的状态是高度动态的，很难找到不同状态之间相互转换的规律，并且不同状态之间的转换规律变化也很快，因此，在基于无人机辅助的数据收集方法中，传统的基于马尔科夫动态规划的方法，例如，公开号为CN110073301A的专利文献公开的工业物联网中具有大数据集的数据收集环境下的检测方法，效果不是很好。然而，基于智能体-环境交互思想的强化学习方法可以很好适应高度动态的环境，它不需要知道环境不同状态之间的转换规律，通过不断学习改进的思想来寻找最优的解决方案，例如，公开号为CN111867139A的专利文献公开的一种基于Q学习的深度神经网络自适应退避策略实现方法及系统。

因此，有必要将传统的基于多跳模式的数据收集方法与强化学习中的Q学习方法相结合，在无人机的辅助下，快速高效地收集无线传感器网络的数据。

发明内容

基于现有技术中的不足之处，本发明提供一种基于Q学习的无人机辅助数据收集系统及方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于Q学习的无人机辅助数据收集系统，包括：

基站；

无人机；

地面感知区域，分割为数个区块；

无线传感器网络，包括布设于地面感知区域的多个无线传感器节点，每一区块最多包含一个无线传感器节点；无线传感器节点用于实时感知环境并生成数据包；

无线数据收发器，搭载于无人机上；当无人机飞抵至无线传感器节点上方时，无线数据收发器与无线传感器节点交互，以获取无线传感器节点的数据包；

数据处理器，搭载于无人机上；数据处理器包括数据处理模块和Q学习模块，数据处理模块与无线数据收发器通信连接，Q学习模块与无人机通信连接；数据处理模块用于对数据包进行数据处理，以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄；Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法，以确定无人机的飞行动作；Q学习模块还用于将无人机的飞行动作的指令发送至无人机；

当无人机飞抵至无线传感器节点上方时，无线数据收发器还用于将感知数据转发给基站。

作为优选方案，所述Q学习模块包括：

收益函数单元，用于根据无线传感器节点的信息年龄计算对应的收益函数值；

Q表更新单元，用于根据收益函数值动态更新Q表；

动作生成单元，用于根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作；

其中，无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长被划分为等长的T个时隙，时隙的大小取值应确保无人机能够在一个时隙内完成感知数据的转发任务以及抽样采取的飞行动作，T为整数。

作为优选方案，所述地面感知区域分割为L ²个区块，L为大于1的整数；

所述无线传感器节点有K个，第k个无线传感器节点的位置为

，其中，

，K为大于1的整数；

在第t个时隙，无人机的位置为

；

在第t个时隙，第k个无线传感器节点生成数据包的个数为

；

在第t个时隙，当第k个无线传感器节点生成了一个数据包，即

，若无人机正好位于第k个无线传感器节点的上方，即

，则服务参数

；否则，服务参数

；

在第t个时隙，第k个无线传感器节点的最新数据包寿命为：

在第t个时隙，第k个无线传感器节点的信息年龄为：

在第t个时隙，无线传感器网络的平均信息年龄为

；

在第t个时隙，无人机的状态为

；

在第t个时隙，无人机采取的飞行动作为

，其中，

为无人机在状态s _t下所有可能采取飞行动作的集合，NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块；

在无人机的状态s _t下，采取飞行动作a _t之后所得到的收益函数值为

。

作为优选方案，所述Q表的更新标准为：

其中，s _t和a _t为第t个时隙的无人机的状态和已经采取的飞行动作，s _t+1和a为第t+1 个时隙的无人机的状态和可采取的飞行动作，r _t为第t个时隙无人机根据接收到的数据计算得到的收益函数值；

，为Q表更新步长；

，为折扣系数；

更新完成之后，在当前时隙的无人机的状态s下，使得Q值最大的动作为当前时隙无人机的最优动作，即：

。

这里注意，a ^*为最优动作，但不一定是无人机实际采取的动作。

作为优选方案，所述根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作，包括：

根据概率分布

抽样一个飞行动作；其中，

为贪心选择概率，

。其中，无人机实际采取的飞行动作为一个随机抽样的飞行动作，该动作根据概率分布随机抽样而来。

作为优选方案，所述数据处理器还用于判断时隙的个数是否达到T；若是，则控制无人机返航。

作为优选方案，所述无线数据收发器包括GPS定位模块和射频通信模块，GPS定位模块用于定位无人机的位置；射频通信模块用于与基站、无线传感器节点交互。

本发明还提供一种基于Q学习的无人机辅助数据收集方法，基于如上方案所述的无人机辅助数据收集系统，所述无人机辅助数据收集方法，包括以下步骤：

S1、初始化参数：步长

，贪心选择概率

，时隙个数T，折扣系数

，对无人机的所有状态s和飞行动作a，从0到1的均匀分布中随机抽样一个值赋予Q(s, a)，并将无人机终止执行数据收集任务的状态的Q值设为0；

S2、初始化无人机的初始状态s ₁，随机抽样一个初始动作a ₁；

S3、判断是否获取无线传感器节点的数据包；若是，则转至步骤S4；若否，则转至步骤S6；

S4、对接收到的数据包进行数据处理，以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄；根据接收到的无线传感器节点的信息年龄计算对应的收益函数值；还将感知数据转发给基站；

S5、根据收益函数值动态更新Q表；

S6、基于当前时隙的Q表和无人机的状态，根据概率分布抽样一个飞行动作；

S7、无人机执行抽样的飞行动作，以进入下一状态；

S8、判断无人机运行的时隙个数是否大于T；若是，则转至步骤S9；若否，则转至步骤S3；

S9、无人机返航，充满电后继续辅助执行数据收集任务，返回至步骤S2。

本发明与现有技术相比，有益效果是：

本发明的基于Q学习的无人机辅助数据收集系统，无线数据收发器负责实时接收和发送数据，数据处理器的数据处理模块负责对接收到的数据包进行数据处理，从而得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄，Q学习模块根据无线传感器节点的信息年龄动态调整Q学习算法，从而确定无人机的飞行动作，无人机执行相应的飞行动作；其中，数据处理器包含Q学习模块和数据处理模块，是整个系统的核心，相互协作以最优地控制无人机飞行。本发明将传统的基于多跳模式的数据收集方法与强化学习中的Q学习方法相结合，在无人机的辅助下，快速高效地收集无线传感器网络的数据。

附图说明

图1为本发明实施例的基于Q学习的无人机辅助数据收集系统的应用模型图；

图2为本发明实施例的基于Q学习的无人机辅助数据收集系统的框架示意图；

图3为本发明实施例的基于Q学习的无人机辅助数据收集方法的流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1和2所示，本发明实施例的基于Q学习的无人机辅助数据收集系统，包括基站、无人机、地面感知区域、无线传感器网络、无线数据收发器和数据处理器，无线传感器网络包括布设于地面感知区域的多个无线传感器节点，无线传感器节点用于实时感知环境并生成数据包，数据包的数据包括例如温度、湿度等感知数据以及传感器自身的参数。

其中，基站的最终目标是获取各无线传感器节点的感知数据；

本发明实施例的地面感知区域被分割为数个区块；具体地，地面感知区域被分割为L ²个区块，L为大于1的整数；每个区块是边长为l的正方形，每个区块的坐标为(i, j)，其中，i, j=1,2,...,L，L的取值大到使得每个区块最多只包含一个无线传感器节点；基于此，本发明实施例的无线传感器节点的数量有K个，第k个无线传感器节点的位置为

，其中，

，K为大于1的整数。

本发明实施例的无线数据收发器搭载于无人机上；当无人机飞抵至无线传感器节点的上方时，无线数据收发器与无线传感器节点和基站交互，无线数据收发器将数据包的感知数据转发给基站。具体地，无线数据收发器包括GPS定位模块和射频通信模块，GPS定位模块用于定位无人机的位置（即无人机的状态），射频通信模块用于与基站、无线传感器节点交互。

本发明实施例的数据处理器搭载于无人机上；数据处理器包括通信连接的数据处理模块和Q学习模块，数据处理模块与无线数据收发器的射频通信模块通信连接，Q学习模块与无人机通信连接。

其中，数据处理模块用于对接收的数据包进行数据处理，以得到基站所需的感知数据（即环境参数）和Q学习模块所需的无线传感器节点的信息年龄；Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法，以确定无人机的飞行动作；Q学习模块还用于将无人机的飞行动作的指令发送至无人机，以便无人机根据指令执行相应的飞行动作。

本发明实施例将无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长划分为等长的T个时隙，时隙的大小T _s应该确保无人机能够在单个时隙内完成感知数据的转发任务以及抽样采取的飞行动作。

相应地，本发明实施例的Q学习模块包括：

Q表更新单元，用于根据收益函数值动态更新Q表；

具体地，在第t个时隙，无人机的位置为

；

在第t个时隙，第k个无线传感器节点生成数据包的个数为

；

，若无人机正好位于第k个无线传感器节点的上方，即

，则服务参数

；否则，服务参数

；

在第t个时隙，第k个无线传感器节点的最新数据包寿命为：

在第t个时隙，第k个无线传感器节点的信息年龄为：

在第t个时隙，无线传感器网络的平均信息年龄为

；

在第t个时隙，无人机的状态为

；

在第t个时隙，无人机采取的飞行动作为

，其中，

。

另外，本发明实施例的Q表更新单元对Q表的更新标准为：

，为Q表更新步长；

，为折扣系数；

。

根据当前时隙的Q表和无人机的状态，无人机实际采取的飞行动作为一个随机抽样的飞行动作，该飞行动作根据以下概率分布随机抽样而来：

其中，

为贪心选择概率，

。

另外，本发明实施例的数据处理器还用于判断时隙的个数是否达到T；若是，则终止辅助数据收集任务，由动作生成单元发出终止状态的指令至无人机，控制无人机返航。

基于上述本发明实施例的基于Q学习的无人机辅助数据收集系统，如图3所示，本发明实施例还提供基于Q学习的无人机辅助数据收集方法，包括以下步骤：

S1、初始化参数：步长

，贪心选择概率

，时隙个数T，折扣系数

S5、根据收益函数值动态更新Q表；

S7、无人机执行抽样的飞行动作，以进入下一状态；

S8、判断无人机运行的时隙个数是否大于T；若是，则转至步骤S9；若否，则转至步骤S3；S9、无人机返航，充满电后继续辅助执行数据收集任务，返回至步骤S2。

以下通过具体示例对本发明实施例的基于Q学习的无人机辅助数据收集的原理进行详细说明：

为了方便描述，假设感知区域为一个10m×10m的正方形，整个感知区域被分为10²个区块，即L=10，l=1m。

假设只有在区块C(k, k)中有一个无线传感器节点，即K=10，且

，k= 1,2,...,10。

假设每个无线传感器节点在每个时隙都均匀地生成一个数据包，即

，k =1,2,...,10，t=1,2,...,T。

初始化参数

、

、

、

。

假设一开始，即当t=1时，无人机位于区块(1,1)（在感知区域的最西南方）的上方，且从可采取的动作集合

中随机抽取了一个动作a ₁=NE，即

，

。此时，

，即第1个无线传感器节点的服务参数为1，第1个无线传感器节点可通过无人机将感知数据转发给基站，基站收集到了第1个无线传感器节点的感知数据。

在第1个时隙结束时，各无线传感器节点的最新数据包寿命为

，各无线传感器节点的信息寿命为

，平均信息寿命为

，收益函数值为

。

在第2个时隙，无人机进入状态

，第2个传感器可通过无人机将感知数据转发给基站。

然后，Q学习模块根据收益函数值更新Q表中的数据

：

同时，在当前状态下，无人机位于感知区域内部，其能够采取的飞行动作集合为：

假设在当前时隙，在状态

的条件下，飞行动作NE对应的Q值最大，即：

因此，飞行动作的概率分布为：

假设动作生成单元抽样并生成了飞行动作

（因为抽样到飞行动作NE的概率为99.375%），无人机执行该飞行动作并飞行进入区块(3,3)的上方，无人机的下一状态为

，位于该区域无线传感器节点的服务参数为

，此时第3个无线传感器节点可将感知数据通过无人机转发给基站，基站收集到了第3个无线传感器节点的感知数据。

在第2个时隙结束时，各无线传感器节点的最新数据包寿命和信息年龄分别为：

由此，数据处理模块可计算得到平均信息年龄为

，收益函数值为

；

然后，Q学习模块根据收益函数值更新Q表中的数据

：

在每一个时隙，重复以上过程，直到时隙的个数达到T=10000，无人机返航进行充电。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于Q学习的无人机辅助数据收集系统，其特征在于，包括：

基站；

无人机；

地面感知区域，分割为数个区块；

当无人机飞抵至无线传感器节点上方时，无线数据收发器还用于将感知数据转发给基站；

所述Q学习模块包括：

Q表更新单元，用于根据收益函数值动态更新Q表；

其中，无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长被划分为等长的T个时隙，时隙的大小取值应确保无人机能够在一个时隙内完成感知数据的转发任务以及抽样采取的飞行动作，T为整数；

所述地面感知区域分割为L²个区块，L为大于1的整数；

所述无线传感器节点有K个，第k个无线传感器节点的位置为N_k＝(x_k,y_k)，其中，x_k,y_k＝1,2,...,L，k＝1,2,...,K，K为大于1的整数；

在第t个时隙，无人机的位置为u(t)∈{(i,j):i,j＝1,2,...,L}，t＝1,2,...,T；

在第t个时隙，第k个无线传感器节点生成数据包的个数为g_k(t)∈{0,1}；

在第t个时隙，当第k个无线传感器节点生成了一个数据包，即g_k(t)＝1，若无人机正好位于第k个无线传感器节点的上方，即u(t)＝N_k，则服务参数S_k(t)＝1；否则，服务参数S_k(t)＝0；

在第t个时隙，第k个无线传感器节点的最新数据包寿命为：

在第t个时隙，第k个无线传感器节点的信息年龄为：

在第t个时隙，无线传感器网络的平均信息年龄为

在第t个时隙，无人机的状态为s_t＝u(t)＝(i,j)；

在第t个时隙，无人机采取的飞行动作为

其中，B(s_t)为无人机在状态s_t下所有可能采取飞行动作的集合，NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块；

在无人机的状态s_t下，采取飞行动作a_t之后所得到的收益函数值为

所述Q表的更新标准为：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmax_aQ(s_t+1,a)-Q(s_t,a_t)]

其中，s_t和a_t为第t个时隙的无人机的状态和已经采取的飞行动作，s_t+1和a为第t+1个时隙的无人机的状态和可采取的飞行动作，r_t为第t个时隙无人机根据接收到的数据计算得到的收益函数值；α∈(0,1)，为Q表更新步长；γ∈(0,1]，为折扣系数；

更新完成之后，在当前时隙的无人机的状态s下，使得Q值最大的动作a^°为当前时隙无人机的最优动作，即：

a^*＝argmax_a Q(s,a)；

所述根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作，包括：

根据概率分布

抽样一个飞行动作；其中，ε为贪心选择概率，ε∈(0,0.1)。

2.根据权利要求1所述的一种基于Q学习的无人机辅助数据收集系统，其特征在于，所述数据处理器还用于判断时隙的个数是否达到T；若是，则控制无人机返航。

3.根据权利要求1所述的一种基于Q学习的无人机辅助数据收集系统，其特征在于，所述无线数据收发器包括GPS定位模块和射频通信模块，GPS定位模块用于定位无人机的位置；射频通信模块用于与基站、无线传感器节点交互。

4.一种基于Q学习的无人机辅助数据收集方法，基于如权利要求2所述的无人机辅助数据收集系统，其特征在于，所述无人机辅助数据收集方法，包括以下步骤：

S1、初始化参数：步长α∈(0,1)，贪心选择概率ε∈(0,0.1)，时隙个数T，折扣系数γ∈(0,1]，对无人机的所有状态s和飞行动作a，从0到1的均匀分布中随机抽样一个值赋予Q(s,a)，并将无人机终止执行数据收集任务的状态的Q值设为0；

S2、初始化无人机的初始状态s₁，随机抽样一个初始动作a₁；

S5、根据收益函数值动态更新Q表；

S7、无人机执行抽样的飞行动作，以进入下一状态；