CN114115358B

CN114115358B - 一种基于高斯强化学习的信号源遍历方法

Info

Publication number: CN114115358B
Application number: CN202111215372.2A
Authority: CN
Inventors: 吕强; 林维雨; 傅琳; 尹克; 张波涛
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2024-03-29
Anticipated expiration: 2041-10-19
Also published as: CN114115358A

Abstract

本发明公开了一种基于高斯强化学习的信号源遍历方法。首先离散化任务环境，并在离散化的环境中，确定每一个方格的中心位置；然后，根据当前检测到的信号强度信息和历史检测到的信号强度信息，采用高斯过程方法预测区域内每一个方格中心位置的信号强度信息，并将该信号强度信息作为强化学习中对应的奖励函数；根据奖励函数，计算每一个方格的状态值函数，并依据状态值函数，采用滚动优化思想，得到最优方格序列，并将第一个方格作为四旋翼无人机下一步的目标位置；开发了预测控制方法，能够根据目标位置，控制四旋翼无人机沿着光滑的轨迹到达目标位置，最后完成信号源遍历任务。本发明采用的方法可以有效提高信号源遍历速度，缩短飞行路径。

Description

一种基于高斯强化学习的信号源遍历方法

技术领域

本发明属于自动化技术领域，具体涉及一种基于高斯强化学习的信号源遍历方法。

背景技术

信号源遍历问题是近年来机器人领域中的一个热门方向，例如在生物、化学、辐射、火灾等环境中，均需要控制机器人实施信号源遍历任务，构建环境信号强度的分布地图。传统的信号源遍历方法，通常采用定向传感器，收集信号强度信息，利用粒子滤波、进化粒子滤波等方法判断信号源所处位置，然后利用PID控制等方法，控制机器人到达该位置。然而，使用定向方向的传感器限制了机器人运动，特别是四旋翼无人机的灵活性，因此，现在多使用非定向方向的传感器用来检测环境信号强度信息。此外，传统的信号源遍历方法，采用四旋翼无人机时，无法有效利用非定向传感器所获得的信号强度信息。特别是对于多信号源遍历时，传统的方法仍然采用人工设定的判断准则完成信号源遍历，然而这样的遍历路径往往不是最优的。再次，由于预测的信号源位置随着信号强度信息的接收不断变动，导致无人机运动时轨迹不光滑，并且方向变动频繁，影响硬件寿命。在这一背景下，本发明弥补了现有技术的不足。

发明内容

本发明的目标是针对现有技术的不足之处，提出了一种基于高斯强化学习的信号源遍历方法。该方法针对无定向方向传感器，采用高斯强化学习获得信号源遍历最优路径。采用预测控制方法控制无人机，根据最优路径实施信号源遍历任务，获得信号强度分布地图。

为了实现以上发明目的，本发明的具体步骤如下：

第一步：准备工作和模型计算；具体步骤如下：

a.将任务区域进行网格化处理，

b.设计四旋翼无人机的动力学模型，

c.设计X型四旋翼无人机姿态动力学模型

第二步：基于采集到的信号强度信息，通过高斯过程回归预测任务区域内各网格的信号强度。

第三步：计算状态值函数；基于高斯过程对每一个方格中心位置s_ij的信号强度的预测，作为状态行为奖励，借助强化学习的思想，进一步计算每一个方格的状态值函数，具体步骤如下：

a.预测环境网格的信号强度值，用一个二维数组Arr表示，如下式(6)所示：

其中：代表第i行，第j列方格中心位置s_ij上的信号强度值。

b.网格中心位置预测信号强度值作为状态行为奖励，如(7)所示：

其中：为第i行，第h列方格中心位置s_ij上的状态行为奖励；/>是第i行，第j列方格中心位置s_ij采用行为a后，所在方格s′_ij上的信号强度值。

c.计算每一个方格的状态值函数，如(8)所示：

其中：i＝1，...，n；j＝1，...，m；A是无人机动作的集合，无人机动作的集合包括向前、向后、向左、向右；a是无人机采取的动作；γ是衰减因子；S是所有网格中心位置的集合；s′_ij是无人机在行为a后可能到达的方格中心位置；V(s_ij)是方格中心位置s_ij的状态值函数；V(s′_ij)是方格中心位置s′_ij的状态值函数；π(a|s_ij)是在方格s_ij上采取行为a的概率。如果s_ij在障碍物上，则V(s_ij)为零；

d.确定下一运动目标位置，如(9)所示：

其中：M是预测的长度；max(·)最大值函数；V(kk|s_ij)是从方格s_ij出发，四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数，并且最多为M个方格；是具有最大/>的可行方格位置序列/>但每次仅用第一个/>作为目标位置。

第四步：采取滚动优化方法，四旋翼无人机向运动目标位置移动。具体步骤如下：

a.代价函数包含三个部分：一部分是保证四旋翼飞行器靠近目标航路点，一部分是避开障碍物，一部分是尽可能缩短飞行时间。因此，代价函数如(10)式所示：

其中：x^t代表t时刻飞行器的水平方向的位置；代表目标航路点；x_ob代表障碍物位置；r₀'表示无人机和障碍物的安全距离；V^t表示t时刻四旋翼飞行器的速度；k₁,k₂,k₃是权重因子。如果未检测到障碍物，则令k₂为零。

b.无人机的控制量根据(11)获得:

其中：表示该式取最小值时，/>的取值；/>是[t_i,t_i+T_N]内的最优控制序列，并将[t_i，t_i+t_k]范围内的最优控制序列施加到四旋翼飞行器；t_k是第k次信号检测时刻；x^τ代表τ时刻四旋翼飞行器的位置；V^τ表示τ时刻飞行器的速度。s.t.表示约束条件；Ξ是位置变量x^τ的范围和Υ是控制变量u_ti的可行范围，ζ表示速度上限，(1)表示四旋翼飞行器动力学模型，(2)表示四旋翼无人机姿态动力学模型；

第五步：如果终止条件满足，则飞行器停止运行，并将信号源位置输出；如果终止条件没有满足，则返回第二步继续执行。

作为优选，所述的第一步：准备工作和模型计算；具体步骤如下：

a.将任务区域进行网格化处理，将其分割为n×m个均匀的网格，每个网格的中心位置用s_ij表示，i＝1，...，n，j＝1，...，m。

b.四旋翼无人机的动力学模型，如公式(1)所示：

其中：X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置；分别为X,Y,Z的二阶导数；/>分别代表四旋翼无人机的横滚角，偏航角和俯仰角；g是重力加速度；m是四旋翼无人机的质量；/>代表四旋翼无人机螺旋桨产生的总拉力，其中/>分别代表四个螺旋桨的转速；C_T为无量纲拉力系数；sin(·),cos(·)分别为正弦函数和余弦函数；让p_k＝(X，Y)表示四旋翼无人机进行第k次信号强度检测时，在水平方向的位置。

c.X型四旋翼无人机姿态动力学模型如(2)所示：

其中：

其中：τ_x，τ_y，τ_z分别为惯性坐标系下三个方向上的力矩；d表示机体中心和任一电机的距离；C_M为无量纲转矩系数；I_x,I_y,I_z表示三个轴上的惯性矩；分别为/>的一阶导数；/>分别为/>的二阶导数。

作为优选，所述的基于采集到的信号强度信息，通过高斯过程回归预测任务区域内各网格的信号强度。具体步骤如下：

a.将机器人所在的位置p_k，检测到的信号强度值y_k，存储到数据集D，并满足：

y_k＝g(p_k)+∈ (3)

其中：为实数集,/>代表二维的实数集,h为存储的数据数量；∈表示独立噪声，满足正态分布/>σ_y ²为方差。

b.预测区域内其它各网格中心位置的信号强度信息，用集合表示s_ij是网格中心位置；g(s_ij)是位置s_ij上的预测信号强度，i＝1，...，n，j＝1，...，m；S是所有网格中心位置的集合。根据(3)式和数据集D，预测输出满足下式(4):

其中：p＝[p₁，...，p_h]，y＝[y₁，...，y_h]；是正态分布，具有均值μ_*和协方差矩阵∑_*。

其中：K(p，s)＝[λ(p_k，s_ij)]，s＝＝s2₁/> i^*＝1，...，n；j^*＝1，...，m；k^*＝1，...，h；σ_f代表振幅参数，l是长度尺度，||·||代表2范数；I是单位矩阵；T表示转置；exp(·)是指数函数。

c.噪声方差和所有高斯过程超参数被收集到一个向量中，根据集合D，通过梯度优化方法优化Θ，如下(5)式所示：

其中：min(·)是最小值函数；arg(·)是获取变量函数；表示在L(Θ)取最小值时，Θ的取值；L(Θ)＝-log p(y|p，Θ)表示样本条件概率的负对数似然函数。

作为优选，所述的终止条件为：给定的最大搜索时间已经达到。

本发明提出的一种基于高斯强化学习的信号源遍历方法，首先利用非定向传感器所获得的信号强度信息，采用高斯过程回归预测网格化后环境的信号强度分布。再利用强化学习的思想以信号强度值为奖励，寻找通往信号源位置的最优路径。并设计了预测控制方法有效地提高了四旋翼无人机遍历信号源的速度。

具体实施方式

以无线传感器网络为例，设定任务监测范围长为100米，宽为100米，建立坐标系统[-50，50]×[-50，50]。其中，3个传感器位于[-20，20]，[20，40]，[15，-30]，并持续向周围发送信号序列。具体实施步骤如下：

第一步：准备工作和模型计算。具体步骤如下：

a.将任务区域进行网格化处理，将其分割为1000×1000个均匀的网格，每个网格的中心位置用s_ij表示，i＝1，...，1000，j＝1，...，1000。

b.设定四旋翼无人机的动力学模型如公式(1)所示：

其中：X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置；分别为X,Y,Z的二阶导数；/>分别代表四旋翼无人机的横滚角，偏航角和俯仰角；g＝9.8m/s²；m＝1.0kg；/>代表四旋翼无人机螺旋桨产生的总拉力，其中分别代表四个螺旋桨的转速；C_T＝3；；sin(·),cos(·)分别为正弦函数和余弦函数；让p_k＝(X，Y)表示四旋翼无人机进行第k次信号强度检测时，在水平方向的位置。

c.X型四旋翼无人机姿态动力学模型如(2)所示：

其中:

其中：τ_x，τ_y，τ_z分别为惯性坐标系下三个方向上的力矩；d＝0.16；C_M＝1；I_x,I_y,I_z的取值分别为0.04kgm²,0.04kgm²,0.1kgm²；分别为/>的一阶导数；/>分别为的二阶导数。

第二步：基于采集到的信号强度信息，通过高斯过程回归预测任务区域内各网格的信号强度。具体步骤如下：

a.将四旋翼无人机所在的位置p_k，检测到的信号强度值y_k，存储到数据集D，并满足：

y_k＝g(pk)+∈ (3)

其中：为实数集,/>代表二维的实数集,h为存储的数据数量；∈表示独立噪声，满足正态分布/>σ_y ²＝2.17为方差。

b.预测区域内其它各网格中心位置的信号强度信息，可以用集合表示s_ij是网格中心位置；g(s_ij)是位置s_ij上的预测信号强度，i＝1，...，n，j＝1，...，m；S是所有网格中心位置的集合。根据(3)式和数据集D，预测输出满足下式(4):

其中：K(p，s)＝[λ(p_k，s_ij)]，s＝[s₁₁，...，s_1m，s_2l，...，s_nm]；/> i^*＝1，...，n；j^*＝1，...，m；k^*＝1，...，h；初始化σ_f＝0.85，l＝15,||·||代表2范数；I是单位矩阵；T表示转置；exp(·)是指数函数。

其中：min(·)是最小值函数；arg(·)是获取变量函数；表示在L(Θ)取最小值时，Θ的取值；L(Θ)＝-logp(y|p，Θ)表示样本条件概率的负对数似然函数。

第三步：计算状态值函数。基于高斯过程对每一个方格中心位置s_ij的信号强度的预测，作为状态行为奖励，借助强化学习的思想，进一步计算每一个方格的状态值函数，具体步骤如下：

其中：代表第i行，第j列方格中心位置s_ij上的信号强度值。

其中：为第i行，第j列方格中心位置s_ij上的状态行为奖励；/>是第i行，第j列方格中心位置s_ij采用行为a后，所在方格s′_ij上的信号强度值。

c.计算每一个方格的状态值函数，如(8)所示：

其中：i＝1，...，n；i＝1，...，m；A是无人机动作的集合(向前、向后、向左、向右)；a是无人机采取的动作；γ＝0.8；S是所有网格中心位置的集合；s′_ij是无人机在行为a后可能到达的方格中心位置；V(s_ij)是方格中心位置s_ij的状态值函数；V(s′_ij)是方格中心位置s′_ij的状态值函数；π(a|s_ij)＝0.25。如果s_ij在障碍物上，则V(s_ij)为零。

d.确定下一运动目标位置，如(9)所示：

其中：M＝5；max(·)最大值函数；V(kk|s_ij)是从方格s_ij出发，四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数，并且最多为M个方格；是具有最大的可行方格位置序列/>但每次仅用第一个/>作为目标位置。

其中：x^t代表t时刻飞行器的水平方向的位置；代表目标航路点；x_ob代表障碍物位置；r₀'＝0.5m；V^t表示t时刻四旋翼飞行器的速度；k₁＝0.5,k₂＝0.4,k₃＝0.2。如果未检测到障碍物，则令k₂为零。

b.无人机的控制量根据(11)获得:

其中：表示该式取最小值时，/>的取值；/>是[t_i,t_i+T_N]内的最优控制序列，并将[t_i，t_i+t_k]范围的最优控制序列施加到飞行器；T_N＝0.5；t_k＝0.05；x^τ代表τ时刻飞行器的位置；V^τ表示τ时刻飞行器的速度。s.t.表示约束条件；Ξ是位置变量x^τ的范围和Υ是控制变量u_ti的可行范围。

第五步：如果终止条件满足，例如：给定的最大搜索时间已经达到，则飞行器停止运行，并将信号源位置输出；如果终止条件没有满足，则返回第二步继续执行。

Claims

1.一种基于高斯强化学习的信号源遍历方法，其特征在于，该方法的具体步骤如下：

第一步：准备工作和模型计算；具体步骤如下：

a.将任务区域进行网格化处理，将其分割为n×m个均匀的网格，每个网格的中心位置用s_ij表示，i＝1，...，n，j＝1，...，m；

b.设计四旋翼无人机的动力学模型，如公式(1)所示：

其中：X,Y,Z分别代表四旋翼无人机在惯性坐标系下三个方向上的位置；分别为X,Y,Z的二阶导数；φ,/>θ分别代表四旋翼无人机的横滚角，偏航角和俯仰角；g是重力加速度；m是四旋翼无人机的质量；/>代表四旋翼无人机螺旋桨产生的总拉力，其中/>分别代表四个螺旋桨的转速；C_T为无量纲拉力系数；sin(·),cos(·)分别为正弦函数和余弦函数；让p_k＝(X，Y)表示四旋翼无人机进行第k次信号强度检测时，在水平方向的位置；

c.设计X型四旋翼无人机姿态动力学模型，如(2)所示：

其中：

其中：τ_x，τ_y，τ_z分别为惯性坐标系下三个方向上的力矩；d表示机体中心和任一电机的距离；C_M为无量纲转矩系数；I_x,I_y,I_z表示三个轴上的惯性矩；分别为φ,θ,/>的一阶导数；/>分别为φ,θ,/>的二阶导数，

第二步：基于采集到的信号强度信息，通过高斯过程回归预测任务区域内各网格的信号强度；

其中：代表第i行，第j列方格中心位置s_ij上的信号强度值；

其中：为第i行，第j列方格中心位置s_ij上的状态行为奖励；/>是第i行，第j列方格中心位置s_ij采用行为a后，所在方格s′_ij上的信号强度值；

c.计算每一个方格的状态值函数，如(8)所示：

其中：i＝1，...，n；j＝1，...，m；A是无人机动作的集合，无人机动作的集合包括向前、向后、向左、向右；a是无人机采取的动作；γ是衰减因子；S是所有网格中心位置的集合；s′_ij是无人机在行为a后可能到达的方格中心位置；V(s_ij)是方格中心位置s_ij的状态值函数；V(s′_ij)是方格中心位置s′_ij的状态值函数；π(a|s_ij)是在方格s_ij上采取行为a的概率；如果s_ij在障碍物上，则V(s_ij)为零；

d.确定下一运动目标位置，如(9)所示：

其中：M是预测的长度；max(·)最大值函数；V(kk|s_ij)是从方格s_ij出发，四旋翼无人机可行动作允许的情况下可飞行的方格的状态值函数，并且最多为M个方格；是具有最大的可行方格位置序列/>但每次仅用第一个/>作为目标位置；

第四步：采取滚动优化方法，四旋翼无人机向运动目标位置移动；具体步骤如下：

a.代价函数包含三个部分：一部分是保证四旋翼飞行器靠近目标航路点，一部分是避开障碍物，一部分是尽可能缩短飞行时间；因此，代价函数如(10)式所示：

其中：x^t代表t时刻飞行器的水平方向的位置；代表目标航路点；x_ob代表障碍物位置；r₀'表示无人机和障碍物的安全距离；V^t表示t时刻四旋翼飞行器的速度；k₁,k₂,k₃是权重因子；如果未检测到障碍物，则令k₂为零；

b.无人机的控制量根据(11)获得:

其中：表示该式取最小值时，/>的取值；/>是[t_i,t_i+T_N]内的最优控制序列，并将[t_i，t_i+t_k]范围内的最优控制序列施加到四旋翼飞行器；t_k是第k次信号检测时刻；x^τ代表τ时刻四旋翼飞行器的位置；V^τ表示τ时刻飞行器的速度；s.t.表示约束条件；Ξ是位置变量x^τ的范围和γ是控制变量u_ti的可行范围，ζ表示速度上限，(1)表示四旋翼飞行器动力学模型，(2)表示四旋翼无人机姿态动力学模型；

2.根据权利要求1所述的一种基于高斯强化学习的信号源遍历方法，其特征在于：所述的基于采集到的信号强度信息，通过高斯过程回归预测任务区域内各网格的信号强度；具体步骤如下：

y_k＝g(p_k)+∈ (3)

其中：为实数集,/>代表二维的实数集,h为存储的数据数量；∈表示独立噪声，满足正态分布/>σ_y ²为方差；

b.预测区域内其它各网格中心位置的信号强度信息，用集合表示s_ij是网格中心位置；g(s_ij)是位置s_ij上的预测信号强度，i＝1，...，n，j＝1，...，m；S是所有网格中心位置的集合；根据(3)式和数据集D，预测输出满足下式(4):

其中：p＝[p₁，...，p_h]，y＝[y₁，...，y_h]；是正态分布，具有均值μ_*和协方差矩阵∑_*；

其中：K(p，s)＝[λ(p_k，s_ij)]，s＝[s₁₁，...，s_1m，s₂₁，...，s_nm]；/> σ_f代表振幅参数，l是长度尺度，||·||代表2范数；I是单位矩阵；T表示转置；exp(·)是指数函数；

3.根据权利要求1所述的一种基于高斯强化学习的信号源遍历方法，其特征在于：所述的终止条件为：给定的最大搜索时间已经达到。