CN116088579A - 一种基于深度强化学习的无人机自适应信息路径规划方法 - Google Patents

一种基于深度强化学习的无人机自适应信息路径规划方法 Download PDF

Info

Publication number
CN116088579A
CN116088579A CN202310169372.6A CN202310169372A CN116088579A CN 116088579 A CN116088579 A CN 116088579A CN 202310169372 A CN202310169372 A CN 202310169372A CN 116088579 A CN116088579 A CN 116088579A
Authority
CN
China
Prior art keywords
value
network
action
strategy
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310169372.6A
Other languages
English (en)
Inventor
余翔
王彬彬
段思睿
王蓉
肖云鹏
庞育才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310169372.6A priority Critical patent/CN116088579A/zh
Publication of CN116088579A publication Critical patent/CN116088579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度强化学习的无人机自适应信息路径规划方法,属于无人机技术领域。该方法使用高斯过程模型对地形进行有效信息的概率映射;根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;设计策略价值网络,并使用一个训练网络同时输出策略与估值;采用强化学习策略,通过使用主动搜索产生的数据进行训练;对策略价值网络训练优化,定义损失函数进行向减小损失方向的迭代更新;对训练完的策略价值网络进行评估;使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。

Description

一种基于深度强化学习的无人机自适应信息路径规划方法
技术领域
本发明属于无人机技术领域,涉及一种基于深度强化学习的无人机自适应信息路径规划方法。
背景技术
近年来,无人机在各种数据收集应用中使用得越来越多,比如自主地对环境进行监测,探索和检查。针对先验未知的非均匀环境,大多数实际系统依赖于预先计算的路径进行数据收集,例如覆盖规划。这种方法假定环境中的信息值均匀分布,对感兴趣的区域(比如热点区域或异常区域)没有着重监测,因此不具备适应性。与传统的方法相比,利用无人机自主地执行任务具有更加灵活,安全和经济的优势。一个关键挑战是在计算受限的平台上执行有效的在线自适应重新规划,找到针对这些感兴趣区域的信息丰富的路径。
目前已经提出了几种用于主动感测的信息路径规划方法,可以根据观察到的数据调整决策,重新规划。然而信息路径规划存在计算瓶颈,主要在于预测性重新规划步骤,因为在评估下一个候选动作时必须模拟多个未来测量结果。以前的研究已经通过离散化动作空间来解决这个问题,例如稀疏图,但这种简化牺牲了预测质量。另一种方法是使用强化学习(RL)来学习数据收集动作。尽管将RL运用到信息路径规划具有不错的结果,但它们仅限于较小的2D动作空间,尚未研究具有空间相关性和大型3D动作空间的地图环境自适应规划。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的无人机自适应信息路径规划方法,能够应用于大型3D动作空间的地图环境自适应规划,在探索最初未知的环境时最大化获取数据的信息价值。
为达到上述目的,本发明提供如下技术方案:
一种基于深度强化学习的无人机自适应信息路径规划方法,具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射;
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;
S3:设计策略价值网络,使得该网络能同时输出策略与估值;
S4:采用强化学习策略,通过使用主动搜索产生用于训练策略价值网络的数据;
S5:对策略价值网络训练优化,定义损失函数向减小损失的方向迭代更新;
S6:对训练完的策略价值网络进行评估;
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。
进一步,步骤S1具体包括:将地形
Figure BDA0004097387160000021
由网格图χ离散化,假设映射的目标变量ζ是二维空间中的连续函数,比如温度。目标变量的先验映射分布由高斯过程模型给出,即
Figure BDA0004097387160000022
Figure BDA0004097387160000023
其中μ-为先验均值向量,P-为先验协方差矩阵;
在无人机执行任务时,使用卡尔曼滤波器
Figure BDA0004097387160000024
P+将测量位置ψi观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合,得到目标变量的后验均值向量μ+和后验协方差矩阵P+
进一步,步骤S2具体包括以下步骤:
S21:建立一般的信息路径规划模型;
信息路径规划的目的是在资源限制的情况下,例如能源、时间或者距离预算,最大程度地收集有关环境的信息。定义如下:
Figure BDA0004097387160000025
其中,Ψ为动作序列集合,ψ=(ψ1,ψ2,...,ψn)为一组动作序列,代表无人机的飞行轨迹;
Figure BDA0004097387160000026
代表执行当前动作所关联的成本;
Figure BDA0004097387160000027
代表无人机的预算限制,比如时间或能量;
Figure BDA0004097387160000028
代表行动价值,通过执行ψ获得新的传感器测量值计算得出。
无人机的飞行成本C(ψ)由总飞行时间定义:
Figure BDA0004097387160000029
其中,
Figure BDA00040973871600000210
是地形上方的3D测量位置;
Figure BDA00040973871600000211
代表测量位置之间的飞行时间成本,无人机的速度恒定为uv
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
由于目标变量是连续函数,计算H涉及高斯过程模型的协方差矩阵P的行列式,计算代价大。所以采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得的高斯过程模型的协方差矩阵;从而得到完整轨迹的信息增益:
Figure BDA0004097387160000031
S22:此发明的目标是收集目标变量ζ值较高的地形区域,例如高温区域,以专注于在发现这些感兴趣区域χI时对其进行映射。采用有界的不确定性感知分类原则将感兴趣区域χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
其中,μi和σi分别是网格单元xi的均值和方差,β和μth分别是自定义的置信区间和阈值;所以对感兴趣区域χI进行映射的协方差矩阵表示为
Figure BDA0004097387160000032
S23:建立基于强化学习的信息化路径规划模型;
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型;状态s的价值V(s)定义为:
V(s)=r(s,a,s′)+γV(s′)
其中,γ∈[0,1],s′代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态;
状态s定义为:
s=(sm,a-)
其中,
Figure BDA0004097387160000033
代表当前的地图状态,a-是先前执行的动作,即当前无人机位置;因此,s′=(s′m,a),其中
Figure BDA0004097387160000034
此发明中,3D动作空间
Figure BDA0004097387160000035
是一组离散的测量位置;奖励函数r定义为:
Figure BDA0004097387160000036
其中,
Figure BDA0004097387160000037
Figure BDA0004097387160000038
分别是将KF应用于沿ψi观察到测量值之前和之后对感兴趣区域χI进行映射的协方差矩阵;当γ=1时,即为一般信息路径规划模型。
进一步,步骤S3中,设计的策略价值网络包括公共网络层、行动策略层和状态价值层,表示为fθ(s)=(p,v),其中,fθ(s)表示策略价值网络,p表示策略,v表示价值;其中,策略网络由行动策略层和公共网络层构成,输出各个动作的概率;价值网络由状态价值层和公共网络层构成,用于评判当前地图的价值;策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成,可以减少推理时间。此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成,这减少了参数的数量并确保了与输入大小无关的体系结构。最后,完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。
进一步,步骤S4中,采用蒙特卡洛树搜索在搜索过程中生成地图样本。蒙特卡洛树搜索就是在搜索过程中生成地图样本的,搜索过程主要由选择、扩展求值、仿真回溯三部分组成,经过多次模拟后得到选择下一个可达测量位置的策略。具体包括以下步骤:
S41:通过概率上限置信区间算法(PUCT)遍历树,选择
Figure BDA0004097387160000041
为搜索分支,算法的计算公式如下:
Figure BDA0004097387160000042
其中,Q(s,a)=r(s,a,s′)+γV(s′)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;
Figure BDA0004097387160000043
表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;
Figure BDA0004097387160000044
表示勘探因子;
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0;
S42:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展;扩展新的结点作为当前结点的子节点,将当前局面输入策略价值网络得到策略p和价值v;
S43:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v;
S44:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
Figure BDA0004097387160000045
其中,
Figure BDA0004097387160000046
表示在剩余预算B内可达的下一个测量位置的集合;T表示温度参数,T越大,不同的动作间差异变小,探索比例增大,反之,则选择当前最优操作
Figure BDA0004097387160000047
根据策略,系统采样进行当前状态的动作决策,得到a~π(s);当搜索达到预算B或者最大步数时搜索过程结束,可以得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。如此一来,就可以得到很多样本(s,a,π(s),V(s),B),可以为网络优化提供训练数据资源。
进一步,步骤S5中,对策略价值网络训练优化具体包括:策略价值网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v;训练策略价值网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s);在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
进一步,步骤S6中,对训练完的策略价值网络进行评估,具体包括:当策略价值网络训练完毕后,进行评估阶段,这个阶段主要用于确认策略价值网络的参数是否得到了优化;在主动搜索的过程中,使用不同训练程度,不同参数的神经网络指导蒙特卡洛树搜索,来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高,就更新参数,而不再使用旧参数。
进一步,步骤S7具体包括:使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程;其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
本发明的有益效果在于:本发明充分考虑当前无人机在环境监测和探索时的关键挑战,基于深度强化学习的无人机自适应信息路径规划方法,以在探索最初未知的环境时最大化获取数据的信息价值。本发明能适应于大型3D动作空间的地图环境自适应规划。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于深度强化学习的无人机自适应信息路径规划方法流程图;
图2为本发明的无人机自适应信息路径规划方法的概述图;
图3为本发明的策略价值网络架构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明提供了一种基于深度强化学习的无人机自适应信息路径规划方法,使用高斯过程模型对地形进行有效信息的概率映射;根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;设计策略价值网络,并使用一个训练网络同时输出策略与估值;采用强化学习策略,通过使用主动搜索产生的数据进行训练;对策略价值网络训练优化,定义损失函数进行向减小损失方向的迭代更新;对训练完的策略价值网络进行评估;使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到数据收集路径。
该无人机自适应信息路径规划方法具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射。
将地形
Figure BDA0004097387160000061
由网格图χ离散化,假设映射的目标变量ζ是二维空间中的连续函数,比如温度。目标变量的先验映射分布由高斯过程模型给出,即
Figure BDA0004097387160000062
其中μ-为先验均值向量,P-为先验协方差矩阵。
在无人机执行任务时,使用卡尔曼滤波器
Figure BDA0004097387160000063
P+将测量位置ψi观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合,得到目标变量的后验均值向量μ+和后验协方差矩阵P+
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型,具体包括以下步骤:
S21:建立一般的信息路径规划模型。
信息路径规划的目的是在资源限制的情况下,例如能源,时间或者距离预算,最大程度地收集有关环境的信息。定义如下:
Figure BDA0004097387160000064
其中,Ψ为动作序列集合,ψ=(ψ1,ψ2,...,ψn)为一组动作序列,代表无人机的飞行轨迹。
Figure BDA0004097387160000065
代表执行当前动作所关联的成本。
Figure BDA0004097387160000066
代表无人机的预算限制,比如时间或能量。
Figure BDA0004097387160000067
代表行动价值,通过执行ψ获得新的传感器测量值计算得出。
无人机的飞行成本C(ψ)由总飞行时间定义:
Figure BDA0004097387160000068
其中,
Figure BDA0004097387160000069
是地形上方的3D测量位置。
Figure BDA00040973871600000610
代表测量位置之间的飞行时间成本,无人机的速度恒定为uv
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
由于目标变量是连续函数,计算H涉及高斯过程模型的协方差矩阵P的行列式,计算代价大。所以采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得。从而得到完整轨迹的信息增益:
Figure BDA0004097387160000071
S22:此发明的目标是收集目标变量ζ值较高的地形区域,例如高温区域,以专注于在发现这些感兴趣区域χI时对其进行映射。采用有界的不确定性感知分类原则将χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
其中,μi和σi是网格单元xi的均值和方差,β和μth分别是自定义的置信区间和阈值。所以对感兴趣区域χI进行映射的协方差矩阵表示为
Figure BDA0004097387160000072
S23:建立基于强化学习的信息化路径规划模型。
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型。状态s的价值V(s)定义为:
V(s)=r(s,a,s′)+γV(s′)
其中,γ∈[0,1],s′代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态。
状态s定义为:
s=(sm,a-)
其中,
Figure BDA0004097387160000073
代表当前的地图状态,a-是先前执行的动作,即当前无人机位置。因此,s′=(s′m,a),其中
Figure BDA0004097387160000074
此发明中,3D动作空间
Figure BDA0004097387160000075
是一组离散的测量位置。奖励函数r定义为:
Figure BDA0004097387160000076
当γ=1时,即为一般信息路径规划模型。
S3:设计策略价值网络,并使用一个训练网络同时输出策略与估值。
本发明的策略价值神经网络架构如图3所示,由公共网络层、行动策略层和状态价值层构成,表示为fθ(s)=(p,v)。本发明需要策略网络输出各个动作的概率以及价值网络评判当前地图的价值。策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成,可以减少推理时间。此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成,这减少了参数的数量并确保了与输入大小无关的体系结构。最后,完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。
S4:采用强化学习策略,通过使用主动搜索产生的数据进行训练。主动搜索由蒙特卡洛树搜索与构建的网络共同驱动,此过程产生大量的地图样本和行动价值,为网络优化提供训练数据资源。
S41:蒙特卡洛树搜索就是在搜索过程中生成地图样本的,搜索过程主要由选择、扩展求值、仿真回溯三部分组成,经过多次模拟后得到选择下一个可达测量位置的策略。对此阐述如下:
S411:通过概率上限置信区间算法(PUCT)遍历树,选择
Figure BDA0004097387160000081
为搜索分支,算法的计算公式如下:
Figure BDA0004097387160000082
其中,Q(s,a)=r(s,a,s′)+γV(s′)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;
Figure BDA0004097387160000083
表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;
Figure BDA0004097387160000084
表示勘探因子。
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0。
S412:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展。扩展新的结点作为当前结点的子节点,将当前局面输入神经网络得到策略p和价值v。
S413:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v。
S42:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
Figure BDA0004097387160000085
其中,
Figure BDA0004097387160000087
表示在剩余预算B内可达的下一个测量位置的集合;τ表示温度参数,τ越大,不同的动作间差异变小,探索比例增大,反之,则选择当前最优操作
Figure BDA0004097387160000086
根据策略,系统采样进行当前状态的动作决策,得到a~π(s)。当搜索达到预算B或者最大步数时搜索过程结束,可以得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。如此一来,就可以得到很多样本(s,a,π(s),V(s),B),可以为网络优化提供训练数据资源。
S5:对策略价值网络训练优化,定义损失函数向减小损失方向进行迭代更新;
神经网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v。训练神经网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s)。在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
S6:对训练完的策略价值网络进行评估;
当神经网络训练完毕后,进行评估阶段,这个阶段主要用于确认神经网络的参数是否得到了优化。在主动搜索的过程中,使用不同训练程度,不同参数的神经网络指导蒙特卡洛树搜索,来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高,就更新参数,而不再使用旧参数。
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到数据收集路径。
使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程。其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于深度强化学习的无人机自适应信息路径规划方法,其特征在于,该方法具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射;
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;
S3:设计策略价值网络,使得该网络能同时输出策略与估值;
S4:采用强化学习策略,通过使用主动搜索产生用于训练策略价值网络的数据;
S5:对策略价值网络训练优化,定义损失函数向减小损失的方向迭代更新;
S6:对训练完的策略价值网络进行评估;
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。
2.根据权利要求1所述的无人机自适应信息路径规划方法,其特征在于,步骤S1具体包括:将地形
Figure FDA0004097387150000011
由网格图χ离散化,假设映射的目标变量ζ是二维空间中的连续函数;目标变量的先验映射分布由高斯过程模型给出,即
Figure FDA0004097387150000012
其中μ-为先验均值向量,P-为先验协方差矩阵;
在无人机执行任务时,使用卡尔曼滤波器
Figure FDA0004097387150000013
将测量位置ψi观察到的数据z与最后一次迭代的先验映射分布p(ζ|ξ)融合,得到目标变量的后验均值向量μ+和后验协方差矩阵P+
3.根据权利要求2所述的无人机自适应信息路径规划方法,其特征在于,步骤S2具体包括以下步骤:
S21:建立一般的信息路径规划模型,定义如下:
Figure FDA0004097387150000014
其中,Ψ为动作序列集合,ψ=(ψ12,…,ψn)为一组动作序列,代表无人机的飞行轨迹;
Figure FDA0004097387150000015
代表执行当前动作所关联的成本;
Figure FDA0004097387150000016
代表无人机的预算限制;
Figure FDA0004097387150000017
代表行动价值,通过执行ψ获得新的传感器测量值计算得出;
无人机的飞行成本C(ψ)由总飞行时间定义:
Figure FDA0004097387150000018
其中,
Figure FDA0004097387150000019
是地形上方的3D测量位置;
Figure FDA00040973871500000110
代表测量位置之间的飞行时间成本,无人机的速度恒定为uv
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得的高斯过程模型的协方差矩阵;从而得到完整轨迹的信息增益:
Figure FDA0004097387150000021
S22:采用有界的不确定性感知分类原则将感兴趣区域χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
其中,μi和ρi分别是网格单元xi的均值和方差,β和μth分别是自定义的置信区间和阈值;
S23:建立基于强化学习的信息化路径规划模型;
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型;状态s的价值V(s)定义为:
V(s)=r(s,a,s)+γV(s)
其中,γ∈[0,1],s代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态;
状态s定义为:
s=(sm,a-)
其中,
Figure FDA0004097387150000022
代表当前的地图状态,a-是先前执行的动作,即当前无人机位置;因此,s′=(s′m,a),其中
Figure FDA0004097387150000023
3D动作空间
Figure FDA0004097387150000024
是一组离散的测量位置;奖励函数r定义为:
Figure FDA0004097387150000025
其中,
Figure FDA0004097387150000026
Figure FDA0004097387150000027
分别是将KF应用于沿ψi观察到测量值之前和之后对感兴趣区域χI进行映射的协方差矩阵;当γ=1时,即为一般信息路径规划模型。
4.根据权利要求1所述的无人机自适应信息路径规划方法,其特征在于,步骤S3中,设计的策略价值网络包括公共网络层、行动策略层和状态价值层,表示为fθ(s)=(p,v),其中,fθ(s)表示策略价值网络,p表示策略,v表示价值;其中,策略网络由行动策略层和公共网络层构成,输出各个动作的概率;价值网络由状态价值层和公共网络层构成,用于评判当前地图的价值;策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成;此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成;最后,完全连接的图层投影到策略向量和单个正标量值。
5.根据权利要求4所述的无人机自适应信息路径规划方法,其特征在于,步骤S4具体是采用蒙特卡洛树搜索在搜索过程中生成地图样本,具体包括以下步骤:
S41:通过概率上限置信区间算法PUCT遍历树,选择
Figure FDA0004097387150000031
为搜索分支,算法的计算公式如下:
Figure FDA0004097387150000032
其中,Q(s,a)=r(s,a,s)+γV(s)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;
Figure FDA0004097387150000033
表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;
Figure FDA0004097387150000034
表示勘探因子;
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0;
S42:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展;扩展新的结点作为当前结点的子节点,将当前局面输入策略价值网络得到策略p和价值v;
S43:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v;
S44:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
Figure FDA0004097387150000035
其中,
Figure FDA0004097387150000036
表示在剩余预算B内可达的下一个测量位置的集合;τ表示温度参数,τ越大,不同的动作间差异变小,探索比例增大,反之,则选择当前最优操作
Figure FDA0004097387150000037
根据策略,系统采样进行当前状态的动作决策,得到a~π(s);当搜索达到预算B或者最大步数时搜索过程结束,得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。
6.根据权利要求5所述的无人机自适应信息路径规划方法,其特征在于,步骤S5中,对策略价值网络训练优化具体包括:策略价值网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v;训练策略价值网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s);在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
7.根据权利要求6所述的无人机自适应信息路径规划方法,其特征在于,步骤S7具体包括:使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程;其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
CN202310169372.6A 2023-02-27 2023-02-27 一种基于深度强化学习的无人机自适应信息路径规划方法 Pending CN116088579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310169372.6A CN116088579A (zh) 2023-02-27 2023-02-27 一种基于深度强化学习的无人机自适应信息路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310169372.6A CN116088579A (zh) 2023-02-27 2023-02-27 一种基于深度强化学习的无人机自适应信息路径规划方法

Publications (1)

Publication Number Publication Date
CN116088579A true CN116088579A (zh) 2023-05-09

Family

ID=86202605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310169372.6A Pending CN116088579A (zh) 2023-02-27 2023-02-27 一种基于深度强化学习的无人机自适应信息路径规划方法

Country Status (1)

Country Link
CN (1) CN116088579A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117346797A (zh) * 2023-12-06 2024-01-05 合肥井松智能科技股份有限公司 一种基于蒙特卡洛搜索树的b样条路径规划方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN116673968B (zh) * 2023-08-03 2023-10-10 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117346797A (zh) * 2023-12-06 2024-01-05 合肥井松智能科技股份有限公司 一种基于蒙特卡洛搜索树的b样条路径规划方法
CN117346797B (zh) * 2023-12-06 2024-03-19 合肥井松智能科技股份有限公司 一种基于蒙特卡洛搜索树的b样条路径规划方法

Similar Documents

Publication Publication Date Title
Rückin et al. Adaptive informative path planning using deep reinforcement learning for uav-based active sensing
CN116088579A (zh) 一种基于深度强化学习的无人机自适应信息路径规划方法
Mazoure et al. Leveraging exploration in off-policy algorithms via normalizing flows
Flaspohler et al. Information-guided robotic maximum seek-and-sample in partially observable continuous environments
CN110443364A (zh) 一种深度神经网络多任务超参数优化方法及装置
Zhu et al. Off-road autonomous vehicles traversability analysis and trajectory planning based on deep inverse reinforcement learning
CN113487221B (zh) 面向动态目标观测的空天异构对地观测资源协同调度方法
Mirkhani et al. A novel efficient algorithm for mobile robot localization
CN112633591B (zh) 一种基于深度强化学习的空间搜索方法及设备
US11513533B2 (en) Topological belief space planning
CN104156943B (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
Sadhu et al. Aerial-DeepSearch: Distributed multi-agent deep reinforcement learning for search missions
CN116520281B (zh) 一种基于ddpg的扩展目标跟踪优化方法和装置
CN113537580A (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
Wang et al. Virtual maps for autonomous exploration with pose SLAM
CN114626307B (zh) 一种基于变分贝叶斯的分布式一致性目标状态估计方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
Gellert et al. Estimation of missing LiDAR data for accurate AGV localization
Zhang et al. Enhancing Multi-UAV Reconnaissance and Search Through Double Critic DDPG With Belief Probability Maps
CN109712389B (zh) 一种基于Copula和Monte-Carlo模拟的路径行程时间估计方法
Louati Cloud-assisted collaborative estimation for next-generation automobile sensing
Ming et al. Growing Neural Gas Network-based surrogate-assisted Pareto set learning for multimodal multi-objective optimization
Zhang et al. Universal value iteration networks: When spatially-invariant is not universal
Havangi et al. An optimization based method for simultaneous localization and mapping
Wurm et al. Improved Simultaneous Localization and Mapping using a Dual Representation of the Environment.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination