CN116088579A

CN116088579A - 一种基于深度强化学习的无人机自适应信息路径规划方法

Info

Publication number: CN116088579A
Application number: CN202310169372.6A
Authority: CN
Inventors: 余翔; 王彬彬; 段思睿; 王蓉; 肖云鹏; 庞育才
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-09

Abstract

本发明涉及一种基于深度强化学习的无人机自适应信息路径规划方法，属于无人机技术领域。该方法使用高斯过程模型对地形进行有效信息的概率映射；根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型；设计策略价值网络，并使用一个训练网络同时输出策略与估值；采用强化学习策略，通过使用主动搜索产生的数据进行训练；对策略价值网络训练优化，定义损失函数进行向减小损失方向的迭代更新；对训练完的策略价值网络进行评估；使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索，得到用于数据收集的信息路径。

Description

一种基于深度强化学习的无人机自适应信息路径规划方法

技术领域

本发明属于无人机技术领域，涉及一种基于深度强化学习的无人机自适应信息路径规划方法。

背景技术

近年来，无人机在各种数据收集应用中使用得越来越多，比如自主地对环境进行监测，探索和检查。针对先验未知的非均匀环境，大多数实际系统依赖于预先计算的路径进行数据收集，例如覆盖规划。这种方法假定环境中的信息值均匀分布，对感兴趣的区域(比如热点区域或异常区域)没有着重监测，因此不具备适应性。与传统的方法相比，利用无人机自主地执行任务具有更加灵活，安全和经济的优势。一个关键挑战是在计算受限的平台上执行有效的在线自适应重新规划，找到针对这些感兴趣区域的信息丰富的路径。

目前已经提出了几种用于主动感测的信息路径规划方法，可以根据观察到的数据调整决策，重新规划。然而信息路径规划存在计算瓶颈，主要在于预测性重新规划步骤，因为在评估下一个候选动作时必须模拟多个未来测量结果。以前的研究已经通过离散化动作空间来解决这个问题，例如稀疏图，但这种简化牺牲了预测质量。另一种方法是使用强化学习(RL)来学习数据收集动作。尽管将RL运用到信息路径规划具有不错的结果，但它们仅限于较小的2D动作空间，尚未研究具有空间相关性和大型3D动作空间的地图环境自适应规划。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的无人机自适应信息路径规划方法，能够应用于大型3D动作空间的地图环境自适应规划，在探索最初未知的环境时最大化获取数据的信息价值。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的无人机自适应信息路径规划方法，具体包括以下步骤：

S1：使用高斯过程模型对地形进行有效信息的概率映射；

S2：根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型；

S3：设计策略价值网络，使得该网络能同时输出策略与估值；

S4：采用强化学习策略，通过使用主动搜索产生用于训练策略价值网络的数据；

S5：对策略价值网络训练优化，定义损失函数向减小损失的方向迭代更新；

S6：对训练完的策略价值网络进行评估；

S7：使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索，得到用于数据收集的信息路径。

进一步，步骤S1具体包括：将地形

由网格图χ离散化，假设映射的目标变量ζ是二维空间中的连续函数，比如温度。目标变量的先验映射分布由高斯过程模型给出，即

其中μ^-为先验均值向量，P^-为先验协方差矩阵；

在无人机执行任务时，使用卡尔曼滤波器

P⁺将测量位置ψ_i观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合，得到目标变量的后验均值向量μ⁺和后验协方差矩阵P⁺。

进一步，步骤S2具体包括以下步骤：

S21：建立一般的信息路径规划模型；

信息路径规划的目的是在资源限制的情况下，例如能源、时间或者距离预算，最大程度地收集有关环境的信息。定义如下：

其中，Ψ为动作序列集合，ψ＝(ψ₁，ψ₂，...，ψ_n)为一组动作序列，代表无人机的飞行轨迹；

代表执行当前动作所关联的成本；

代表无人机的预算限制，比如时间或能量；

代表行动价值，通过执行ψ获得新的传感器测量值计算得出。

无人机的飞行成本C(ψ)由总飞行时间定义：

其中，

是地形上方的3D测量位置；

代表测量位置之间的飞行时间成本，无人机的速度恒定为u_v；

行动价值函数I(·)仅取决于地图的不确定性，通过最大化网格图χ中香农熵H的减少来定义：

I(ψ_i)＝H(χ^-)-H(χ⁺)

由于目标变量是连续函数，计算H涉及高斯过程模型的协方差矩阵P的行列式，计算代价大。所以采用最大化矩阵的迹来计算：

I(ψ_i)＝Tr(P^-)-Tr(P⁺)

其中，Tr(·)表示矩阵的迹，P^-和P⁺分别在将KF应用于沿ψ_i观察到测量值之前和之后获得的高斯过程模型的协方差矩阵；从而得到完整轨迹的信息增益：

S22：此发明的目标是收集目标变量ζ值较高的地形区域，例如高温区域，以专注于在发现这些感兴趣区域χ_I时对其进行映射。采用有界的不确定性感知分类原则将感兴趣区域χ_I定义为：

χ_I＝{x_i|x_i∈χ∧μ_i+βσ_i≥μ_th}

其中，μ_i和σ_i分别是网格单元x_i的均值和方差，β和μ_th分别是自定义的置信区间和阈值；所以对感兴趣区域χ_I进行映射的协方差矩阵表示为

S23：建立基于强化学习的信息化路径规划模型；

将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型；状态s的价值V(s)定义为：

V(s)＝r(s，a，s′)+γV(s′)

其中，γ∈[0，1]，s′代表根据策略π(·)选择下一动作ψ_i+1＝a～π(s)的后继状态；

状态s定义为：

s＝(s_m，a^-)

其中，

代表当前的地图状态，a^-是先前执行的动作，即当前无人机位置；因此，s′＝(s′_m，a)，其中

此发明中，3D动作空间

是一组离散的测量位置；奖励函数r定义为：

其中，

和

分别是将KF应用于沿ψ_i观察到测量值之前和之后对感兴趣区域χ_I进行映射的协方差矩阵；当γ＝1时，即为一般信息路径规划模型。

进一步，步骤S3中，设计的策略价值网络包括公共网络层、行动策略层和状态价值层，表示为f_θ(s)＝(p，v)，其中，f_θ(s)表示策略价值网络，p表示策略，v表示价值；其中，策略网络由行动策略层和公共网络层构成，输出各个动作的概率；价值网络由状态价值层和公共网络层构成，用于评判当前地图的价值；策略网络和价值网络共享公共网络层，公共网络层由10个Non-bottleneck-1D块组成，可以减少推理时间。此后再分成策略policy和价值value两个输出，均由3个卷积块和全局平均池组成，这减少了参数的数量并确保了与输入大小无关的体系结构。最后，完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。

进一步，步骤S4中，采用蒙特卡洛树搜索在搜索过程中生成地图样本。蒙特卡洛树搜索就是在搜索过程中生成地图样本的，搜索过程主要由选择、扩展求值、仿真回溯三部分组成，经过多次模拟后得到选择下一个可达测量位置的策略。具体包括以下步骤：

S41：通过概率上限置信区间算法(PUCT)遍历树，选择

为搜索分支，算法的计算公式如下：

其中，Q(s，a)＝r(s，a，s′)+γV(s′)代表行动价值；P_a(s)表示状态s下可行动作a的先验概率；

表示状态s下父节点的访问计数；N(s，a)表示状态s下可行动作a被选中的次数；

表示勘探因子；

为了加强探索的广度，将Dirichlet噪声添加到状态为s^(r)的根节点的P(s^(r))：

P(s^(r))＝(1-∈)π(s^(r))+∈η

其中，∈∈[0，1]，噪声η～Dir(δ)，δ>0；

S42：当搜索还没结束且当前结点为叶子节点时，就需要进行扩展；扩展新的结点作为当前结点的子节点，将当前局面输入策略价值网络得到策略p和价值v；

S43：如果搜索达到了预算B或最大步数，或者未扩展的状态就执行扩展操作，则将价值回传给上一层，对上一层的值进行更新，被选中的次数加1，行动价值加v；

S44：选择下一个可达测量位置之前，会进行固定次数的模拟，每次模拟都包含以上3个步骤，在此基础上蒙特卡洛树搜索才会做出真正的决策，公式如下：

其中，

表示在剩余预算B内可达的下一个测量位置的集合；T表示温度参数，T越大，不同的动作间差异变小，探索比例增大，反之，则选择当前最优操作

根据策略，系统采样进行当前状态的动作决策，得到a～π(s)；当搜索达到预算B或者最大步数时搜索过程结束，可以得到在s地图状态下，采用策略π(s)执行动作a，最终的行动价值为V(s)。如此一来，就可以得到很多样本(s，a，π(s)，V(s)，B)，可以为网络优化提供训练数据资源。

进一步，步骤S5中，对策略价值网络训练优化具体包括：策略价值网络的输入为当前的地图状态s，输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v；训练策略价值网络采用主动探索阶段得到的样本集合(s，a，π(s)，V(s)，B)，训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s)，让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s)；在主动探索得到的数据集上不断地最小化损失函数，定义如下：

l(s)＝α(V(s)-v)²-βπ(s)^Tlogp+λ||θ²||

其中，V(s)表示真实的搜索结果；v表示策略价值网络输出的行动价值；π(s)表示蒙特卡洛树搜索输出的概率；p为策略价值网络输出当前地图状态下到每个可达测量位置的概率；α，β，λ≥0是超参数；λ||θ²||是用于防止过拟合的正则项。

进一步，步骤S6中，对训练完的策略价值网络进行评估，具体包括：当策略价值网络训练完毕后，进行评估阶段，这个阶段主要用于确认策略价值网络的参数是否得到了优化；在主动搜索的过程中，使用不同训练程度，不同参数的神经网络指导蒙特卡洛树搜索，来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高，就更新参数，而不再使用旧参数。

进一步，步骤S7具体包括：使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索，当搜索达到预算B或者最大步数时，完成整个搜索过程；其中，每一个测量位置表示无人机的飞行路径点，即测量位置的集合即为无人机用于数据收集的信息路径。

本发明的有益效果在于：本发明充分考虑当前无人机在环境监测和探索时的关键挑战，基于深度强化学习的无人机自适应信息路径规划方法，以在探索最初未知的环境时最大化获取数据的信息价值。本发明能适应于大型3D动作空间的地图环境自适应规划。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于深度强化学习的无人机自适应信息路径规划方法流程图；

图2为本发明的无人机自适应信息路径规划方法的概述图；

图3为本发明的策略价值网络架构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，本发明提供了一种基于深度强化学习的无人机自适应信息路径规划方法，使用高斯过程模型对地形进行有效信息的概率映射；根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型；设计策略价值网络，并使用一个训练网络同时输出策略与估值；采用强化学习策略，通过使用主动搜索产生的数据进行训练；对策略价值网络训练优化，定义损失函数进行向减小损失方向的迭代更新；对训练完的策略价值网络进行评估；使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索，得到数据收集路径。

该无人机自适应信息路径规划方法具体包括以下步骤：

S1：使用高斯过程模型对地形进行有效信息的概率映射。

将地形

其中μ^-为先验均值向量，P^-为先验协方差矩阵。

在无人机执行任务时，使用卡尔曼滤波器

P+将测量位置ψi观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合，得到目标变量的后验均值向量μ⁺和后验协方差矩阵P⁺。

S2：根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型，具体包括以下步骤：

S21：建立一般的信息路径规划模型。

信息路径规划的目的是在资源限制的情况下，例如能源，时间或者距离预算，最大程度地收集有关环境的信息。定义如下：

其中，Ψ为动作序列集合，ψ＝(ψ₁，ψ₂，...，ψ_n)为一组动作序列，代表无人机的飞行轨迹。

代表执行当前动作所关联的成本。

代表无人机的预算限制，比如时间或能量。

无人机的飞行成本C(ψ)由总飞行时间定义：

其中，

是地形上方的3D测量位置。

代表测量位置之间的飞行时间成本，无人机的速度恒定为u_v。

I(ψ_i)＝H(χ^-)-H(χ⁺)

I(ψ_i)＝Tr(P^-)-Tr(P⁺)

其中，Tr(·)表示矩阵的迹，P^-和P⁺分别在将KF应用于沿ψ_i观察到测量值之前和之后获得。从而得到完整轨迹的信息增益：

S22：此发明的目标是收集目标变量ζ值较高的地形区域，例如高温区域，以专注于在发现这些感兴趣区域χ_I时对其进行映射。采用有界的不确定性感知分类原则将χ_I定义为：

χ_I＝{x_i|x_i∈χ∧μ_i+βσ_i≥μ_th}

其中，μ_i和σ_i是网格单元x_i的均值和方差，β和μ_th分别是自定义的置信区间和阈值。所以对感兴趣区域χ_I进行映射的协方差矩阵表示为

S23：建立基于强化学习的信息化路径规划模型。

将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型。状态s的价值V(s)定义为：

V(s)＝r(s，a，s′)+γV(s′)

其中，γ∈[0，1]，s′代表根据策略π(·)选择下一动作ψ_i+1＝a～π(s)的后继状态。

状态s定义为：

s＝(s_m，a^-)

其中，

代表当前的地图状态，a^-是先前执行的动作，即当前无人机位置。因此，s′＝(s′_m，a)，其中

此发明中，3D动作空间

是一组离散的测量位置。奖励函数r定义为：

当γ＝1时，即为一般信息路径规划模型。

S3：设计策略价值网络，并使用一个训练网络同时输出策略与估值。

本发明的策略价值神经网络架构如图3所示，由公共网络层、行动策略层和状态价值层构成，表示为f_θ(s)＝(p，v)。本发明需要策略网络输出各个动作的概率以及价值网络评判当前地图的价值。策略网络和价值网络共享公共网络层，公共网络层由10个Non-bottleneck-1D块组成，可以减少推理时间。此后再分成策略policy和价值value两个输出，均由3个卷积块和全局平均池组成，这减少了参数的数量并确保了与输入大小无关的体系结构。最后，完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。

S4：采用强化学习策略，通过使用主动搜索产生的数据进行训练。主动搜索由蒙特卡洛树搜索与构建的网络共同驱动，此过程产生大量的地图样本和行动价值，为网络优化提供训练数据资源。

S41：蒙特卡洛树搜索就是在搜索过程中生成地图样本的，搜索过程主要由选择、扩展求值、仿真回溯三部分组成，经过多次模拟后得到选择下一个可达测量位置的策略。对此阐述如下：

S411：通过概率上限置信区间算法(PUCT)遍历树，选择

为搜索分支，算法的计算公式如下：

表示勘探因子。

P(s^(r))＝(1-∈)π(s^(r))+∈η

其中，∈∈[0，1]，噪声η～Dir(δ)，δ>0。

S412：当搜索还没结束且当前结点为叶子节点时，就需要进行扩展。扩展新的结点作为当前结点的子节点，将当前局面输入神经网络得到策略p和价值v。

S413：如果搜索达到了预算B或最大步数，或者未扩展的状态就执行扩展操作，则将价值回传给上一层，对上一层的值进行更新，被选中的次数加1，行动价值加v。

S42：选择下一个可达测量位置之前，会进行固定次数的模拟，每次模拟都包含以上3个步骤，在此基础上蒙特卡洛树搜索才会做出真正的决策，公式如下：

其中，

表示在剩余预算B内可达的下一个测量位置的集合；τ表示温度参数，τ越大，不同的动作间差异变小，探索比例增大，反之，则选择当前最优操作

根据策略，系统采样进行当前状态的动作决策，得到a～π(s)。当搜索达到预算B或者最大步数时搜索过程结束，可以得到在s地图状态下，采用策略π(s)执行动作a，最终的行动价值为V(s)。如此一来，就可以得到很多样本(s，a，π(s)，V(s)，B)，可以为网络优化提供训练数据资源。

S5：对策略价值网络训练优化，定义损失函数向减小损失方向进行迭代更新；

神经网络的输入为当前的地图状态s，输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v。训练神经网络采用主动探索阶段得到的样本集合(s，a，π(s)，V(s)，B)，训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s)，让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s)。在主动探索得到的数据集上不断地最小化损失函数，定义如下：

l(s)＝α(V(s)-v)²-βπ(s)^Tlogp+λ||θ²||

S6：对训练完的策略价值网络进行评估；

当神经网络训练完毕后，进行评估阶段，这个阶段主要用于确认神经网络的参数是否得到了优化。在主动搜索的过程中，使用不同训练程度，不同参数的神经网络指导蒙特卡洛树搜索，来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高，就更新参数，而不再使用旧参数。

S7：使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索，得到数据收集路径。

使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索，当搜索达到预算B或者最大步数时，完成整个搜索过程。其中，每一个测量位置表示无人机的飞行路径点，即测量位置的集合即为无人机用于数据收集的信息路径。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的无人机自适应信息路径规划方法，其特征在于，该方法具体包括以下步骤：

S1：使用高斯过程模型对地形进行有效信息的概率映射；

S6：对训练完的策略价值网络进行评估；

2.根据权利要求1所述的无人机自适应信息路径规划方法，其特征在于，步骤S1具体包括：将地形

由网格图χ离散化，假设映射的目标变量ζ是二维空间中的连续函数；目标变量的先验映射分布由高斯过程模型给出，即

其中μ^-为先验均值向量，P^-为先验协方差矩阵；

在无人机执行任务时，使用卡尔曼滤波器

将测量位置ψ_i观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合，得到目标变量的后验均值向量μ⁺和后验协方差矩阵P⁺。

3.根据权利要求2所述的无人机自适应信息路径规划方法，其特征在于，步骤S2具体包括以下步骤：

S21：建立一般的信息路径规划模型，定义如下：

其中，Ψ为动作序列集合，ψ＝(ψ₁,ψ₂,…,ψ_n)为一组动作序列，代表无人机的飞行轨迹；

代表执行当前动作所关联的成本；

代表无人机的预算限制；

代表行动价值，通过执行ψ获得新的传感器测量值计算得出；

无人机的飞行成本C(ψ)由总飞行时间定义：

其中，

是地形上方的3D测量位置；

I(ψ_i)＝H(χ^-)-H(χ⁺)

采用最大化矩阵的迹来计算：

I(ψ_i)＝Tr(P^-)-Tr(P⁺)

S22：采用有界的不确定性感知分类原则将感兴趣区域χ_I定义为：

χ_I＝{x_i|x_i∈χ∧μ_i+βσ_i≥μ_th}

其中，μ_i和ρ_i分别是网格单元x_i的均值和方差，β和μ_th分别是自定义的置信区间和阈值；

S23：建立基于强化学习的信息化路径规划模型；

V(s)＝r(s,a,s^′)+γV(s^′)

其中，γ∈[0,1]，s^′代表根据策略π(·)选择下一动作ψ_i+1＝a～π(s)的后继状态；

状态s定义为：

s＝(s_m,a^-)

其中，

代表当前的地图状态，a^-是先前执行的动作，即当前无人机位置；因此，s′＝(s′_m,a)，其中

3D动作空间

是一组离散的测量位置；奖励函数r定义为：

其中，

和

4.根据权利要求1所述的无人机自适应信息路径规划方法，其特征在于，步骤S3中，设计的策略价值网络包括公共网络层、行动策略层和状态价值层，表示为f_θ(s)＝(p,v)，其中，f_θ(s)表示策略价值网络，p表示策略，v表示价值；其中，策略网络由行动策略层和公共网络层构成，输出各个动作的概率；价值网络由状态价值层和公共网络层构成，用于评判当前地图的价值；策略网络和价值网络共享公共网络层，公共网络层由10个Non-bottleneck-1D块组成；此后再分成策略policy和价值value两个输出，均由3个卷积块和全局平均池组成；最后，完全连接的图层投影到策略向量和单个正标量值。

5.根据权利要求4所述的无人机自适应信息路径规划方法，其特征在于，步骤S4具体是采用蒙特卡洛树搜索在搜索过程中生成地图样本，具体包括以下步骤：

S41：通过概率上限置信区间算法PUCT遍历树，选择

为搜索分支，算法的计算公式如下：

其中，Q(s,a)＝r(s,a,s^′)+γV(s^′)代表行动价值；P_a(s)表示状态s下可行动作a的先验概率；

表示状态s下父节点的访问计数；N(s,a)表示状态s下可行动作a被选中的次数；

表示勘探因子；

P(s^(r))＝(1-∈)π(s^(r))+∈η

其中，∈∈[0,1]，噪声η～Dir(δ)，δ>0；

其中，

根据策略，系统采样进行当前状态的动作决策，得到a～π(s)；当搜索达到预算B或者最大步数时搜索过程结束，得到在s地图状态下，采用策略π(s)执行动作a，最终的行动价值为V(s)。

6.根据权利要求5所述的无人机自适应信息路径规划方法，其特征在于，步骤S5中，对策略价值网络训练优化具体包括：策略价值网络的输入为当前的地图状态s，输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v；训练策略价值网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B)，训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s)，让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s)；在主动探索得到的数据集上不断地最小化损失函数，定义如下：

l(s)＝α(V(s)-v)²-βπ(s)^Tlogp+λ||θ²||

7.根据权利要求6所述的无人机自适应信息路径规划方法，其特征在于，步骤S7具体包括：使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索，当搜索达到预算B或者最大步数时，完成整个搜索过程；其中，每一个测量位置表示无人机的飞行路径点，即测量位置的集合即为无人机用于数据收集的信息路径。