CN116088579A - 一种基于深度强化学习的无人机自适应信息路径规划方法 - Google Patents
一种基于深度强化学习的无人机自适应信息路径规划方法 Download PDFInfo
- Publication number
- CN116088579A CN116088579A CN202310169372.6A CN202310169372A CN116088579A CN 116088579 A CN116088579 A CN 116088579A CN 202310169372 A CN202310169372 A CN 202310169372A CN 116088579 A CN116088579 A CN 116088579A
- Authority
- CN
- China
- Prior art keywords
- value
- network
- action
- strategy
- path planning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 20
- 238000013480 data collection Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 65
- 238000005259 measurement Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于深度强化学习的无人机自适应信息路径规划方法,属于无人机技术领域。该方法使用高斯过程模型对地形进行有效信息的概率映射;根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;设计策略价值网络,并使用一个训练网络同时输出策略与估值;采用强化学习策略,通过使用主动搜索产生的数据进行训练;对策略价值网络训练优化,定义损失函数进行向减小损失方向的迭代更新;对训练完的策略价值网络进行评估;使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。
Description
技术领域
本发明属于无人机技术领域,涉及一种基于深度强化学习的无人机自适应信息路径规划方法。
背景技术
近年来,无人机在各种数据收集应用中使用得越来越多,比如自主地对环境进行监测,探索和检查。针对先验未知的非均匀环境,大多数实际系统依赖于预先计算的路径进行数据收集,例如覆盖规划。这种方法假定环境中的信息值均匀分布,对感兴趣的区域(比如热点区域或异常区域)没有着重监测,因此不具备适应性。与传统的方法相比,利用无人机自主地执行任务具有更加灵活,安全和经济的优势。一个关键挑战是在计算受限的平台上执行有效的在线自适应重新规划,找到针对这些感兴趣区域的信息丰富的路径。
目前已经提出了几种用于主动感测的信息路径规划方法,可以根据观察到的数据调整决策,重新规划。然而信息路径规划存在计算瓶颈,主要在于预测性重新规划步骤,因为在评估下一个候选动作时必须模拟多个未来测量结果。以前的研究已经通过离散化动作空间来解决这个问题,例如稀疏图,但这种简化牺牲了预测质量。另一种方法是使用强化学习(RL)来学习数据收集动作。尽管将RL运用到信息路径规划具有不错的结果,但它们仅限于较小的2D动作空间,尚未研究具有空间相关性和大型3D动作空间的地图环境自适应规划。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的无人机自适应信息路径规划方法,能够应用于大型3D动作空间的地图环境自适应规划,在探索最初未知的环境时最大化获取数据的信息价值。
为达到上述目的,本发明提供如下技术方案:
一种基于深度强化学习的无人机自适应信息路径规划方法,具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射;
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;
S3:设计策略价值网络,使得该网络能同时输出策略与估值;
S4:采用强化学习策略,通过使用主动搜索产生用于训练策略价值网络的数据;
S5:对策略价值网络训练优化,定义损失函数向减小损失的方向迭代更新;
S6:对训练完的策略价值网络进行评估;
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。
进一步,步骤S2具体包括以下步骤:
S21:建立一般的信息路径规划模型;
信息路径规划的目的是在资源限制的情况下,例如能源、时间或者距离预算,最大程度地收集有关环境的信息。定义如下:
其中,Ψ为动作序列集合,ψ=(ψ1,ψ2,...,ψn)为一组动作序列,代表无人机的飞行轨迹;代表执行当前动作所关联的成本;代表无人机的预算限制,比如时间或能量;代表行动价值,通过执行ψ获得新的传感器测量值计算得出。
无人机的飞行成本C(ψ)由总飞行时间定义:
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
由于目标变量是连续函数,计算H涉及高斯过程模型的协方差矩阵P的行列式,计算代价大。所以采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得的高斯过程模型的协方差矩阵;从而得到完整轨迹的信息增益:
S22:此发明的目标是收集目标变量ζ值较高的地形区域,例如高温区域,以专注于在发现这些感兴趣区域χI时对其进行映射。采用有界的不确定性感知分类原则将感兴趣区域χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
S23:建立基于强化学习的信息化路径规划模型;
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型;状态s的价值V(s)定义为:
V(s)=r(s,a,s′)+γV(s′)
其中,γ∈[0,1],s′代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态;
状态s定义为:
s=(sm,a-)
进一步,步骤S3中,设计的策略价值网络包括公共网络层、行动策略层和状态价值层,表示为fθ(s)=(p,v),其中,fθ(s)表示策略价值网络,p表示策略,v表示价值;其中,策略网络由行动策略层和公共网络层构成,输出各个动作的概率;价值网络由状态价值层和公共网络层构成,用于评判当前地图的价值;策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成,可以减少推理时间。此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成,这减少了参数的数量并确保了与输入大小无关的体系结构。最后,完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。
进一步,步骤S4中,采用蒙特卡洛树搜索在搜索过程中生成地图样本。蒙特卡洛树搜索就是在搜索过程中生成地图样本的,搜索过程主要由选择、扩展求值、仿真回溯三部分组成,经过多次模拟后得到选择下一个可达测量位置的策略。具体包括以下步骤:
其中,Q(s,a)=r(s,a,s′)+γV(s′)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;表示勘探因子;
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0;
S42:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展;扩展新的结点作为当前结点的子节点,将当前局面输入策略价值网络得到策略p和价值v;
S43:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v;
S44:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
根据策略,系统采样进行当前状态的动作决策,得到a~π(s);当搜索达到预算B或者最大步数时搜索过程结束,可以得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。如此一来,就可以得到很多样本(s,a,π(s),V(s),B),可以为网络优化提供训练数据资源。
进一步,步骤S5中,对策略价值网络训练优化具体包括:策略价值网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v;训练策略价值网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s);在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
进一步,步骤S6中,对训练完的策略价值网络进行评估,具体包括:当策略价值网络训练完毕后,进行评估阶段,这个阶段主要用于确认策略价值网络的参数是否得到了优化;在主动搜索的过程中,使用不同训练程度,不同参数的神经网络指导蒙特卡洛树搜索,来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高,就更新参数,而不再使用旧参数。
进一步,步骤S7具体包括:使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程;其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
本发明的有益效果在于:本发明充分考虑当前无人机在环境监测和探索时的关键挑战,基于深度强化学习的无人机自适应信息路径规划方法,以在探索最初未知的环境时最大化获取数据的信息价值。本发明能适应于大型3D动作空间的地图环境自适应规划。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于深度强化学习的无人机自适应信息路径规划方法流程图;
图2为本发明的无人机自适应信息路径规划方法的概述图;
图3为本发明的策略价值网络架构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明提供了一种基于深度强化学习的无人机自适应信息路径规划方法,使用高斯过程模型对地形进行有效信息的概率映射;根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;设计策略价值网络,并使用一个训练网络同时输出策略与估值;采用强化学习策略,通过使用主动搜索产生的数据进行训练;对策略价值网络训练优化,定义损失函数进行向减小损失方向的迭代更新;对训练完的策略价值网络进行评估;使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到数据收集路径。
该无人机自适应信息路径规划方法具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射。
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型,具体包括以下步骤:
S21:建立一般的信息路径规划模型。
信息路径规划的目的是在资源限制的情况下,例如能源,时间或者距离预算,最大程度地收集有关环境的信息。定义如下:
其中,Ψ为动作序列集合,ψ=(ψ1,ψ2,...,ψn)为一组动作序列,代表无人机的飞行轨迹。代表执行当前动作所关联的成本。代表无人机的预算限制,比如时间或能量。代表行动价值,通过执行ψ获得新的传感器测量值计算得出。
无人机的飞行成本C(ψ)由总飞行时间定义:
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
由于目标变量是连续函数,计算H涉及高斯过程模型的协方差矩阵P的行列式,计算代价大。所以采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得。从而得到完整轨迹的信息增益:
S22:此发明的目标是收集目标变量ζ值较高的地形区域,例如高温区域,以专注于在发现这些感兴趣区域χI时对其进行映射。采用有界的不确定性感知分类原则将χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
S23:建立基于强化学习的信息化路径规划模型。
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型。状态s的价值V(s)定义为:
V(s)=r(s,a,s′)+γV(s′)
其中,γ∈[0,1],s′代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态。
状态s定义为:
s=(sm,a-)
当γ=1时,即为一般信息路径规划模型。
S3:设计策略价值网络,并使用一个训练网络同时输出策略与估值。
本发明的策略价值神经网络架构如图3所示,由公共网络层、行动策略层和状态价值层构成,表示为fθ(s)=(p,v)。本发明需要策略网络输出各个动作的概率以及价值网络评判当前地图的价值。策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成,可以减少推理时间。此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成,这减少了参数的数量并确保了与输入大小无关的体系结构。最后,完全连接的图层投影到策略向量(Softmax)和单个正标量值(Softplus)。
S4:采用强化学习策略,通过使用主动搜索产生的数据进行训练。主动搜索由蒙特卡洛树搜索与构建的网络共同驱动,此过程产生大量的地图样本和行动价值,为网络优化提供训练数据资源。
S41:蒙特卡洛树搜索就是在搜索过程中生成地图样本的,搜索过程主要由选择、扩展求值、仿真回溯三部分组成,经过多次模拟后得到选择下一个可达测量位置的策略。对此阐述如下:
其中,Q(s,a)=r(s,a,s′)+γV(s′)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;表示勘探因子。
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0。
S412:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展。扩展新的结点作为当前结点的子节点,将当前局面输入神经网络得到策略p和价值v。
S413:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v。
S42:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
根据策略,系统采样进行当前状态的动作决策,得到a~π(s)。当搜索达到预算B或者最大步数时搜索过程结束,可以得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。如此一来,就可以得到很多样本(s,a,π(s),V(s),B),可以为网络优化提供训练数据资源。
S5:对策略价值网络训练优化,定义损失函数向减小损失方向进行迭代更新;
神经网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v。训练神经网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s)。在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
S6:对训练完的策略价值网络进行评估;
当神经网络训练完毕后,进行评估阶段,这个阶段主要用于确认神经网络的参数是否得到了优化。在主动搜索的过程中,使用不同训练程度,不同参数的神经网络指导蒙特卡洛树搜索,来检验在新的神经网络下行动价值是否得到提高。如果使用新参数后行动价值得到了提高,就更新参数,而不再使用旧参数。
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到数据收集路径。
使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程。其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于深度强化学习的无人机自适应信息路径规划方法,其特征在于,该方法具体包括以下步骤:
S1:使用高斯过程模型对地形进行有效信息的概率映射;
S2:根据一般的信息路径规划模型建立基于强化学习的信息路径规划模型;
S3:设计策略价值网络,使得该网络能同时输出策略与估值;
S4:采用强化学习策略,通过使用主动搜索产生用于训练策略价值网络的数据;
S5:对策略价值网络训练优化,定义损失函数向减小损失的方向迭代更新;
S6:对训练完的策略价值网络进行评估;
S7:使用更新后的策略价值网络与蒙特卡洛树搜索结合完成搜索,得到用于数据收集的信息路径。
3.根据权利要求2所述的无人机自适应信息路径规划方法,其特征在于,步骤S2具体包括以下步骤:
S21:建立一般的信息路径规划模型,定义如下:
无人机的飞行成本C(ψ)由总飞行时间定义:
行动价值函数I(·)仅取决于地图的不确定性,通过最大化网格图χ中香农熵H的减少来定义:
I(ψi)=H(χ-)-H(χ+)
采用最大化矩阵的迹来计算:
I(ψi)=Tr(P-)-Tr(P+)
其中,Tr(·)表示矩阵的迹,P-和P+分别在将KF应用于沿ψi观察到测量值之前和之后获得的高斯过程模型的协方差矩阵;从而得到完整轨迹的信息增益:
S22:采用有界的不确定性感知分类原则将感兴趣区域χI定义为:
χI={xi|xi∈χ∧μi+βσi≥μth}
其中,μi和ρi分别是网格单元xi的均值和方差,β和μth分别是自定义的置信区间和阈值;
S23:建立基于强化学习的信息化路径规划模型;
将以上步骤建立的一般的信息路径规划模型转换成基于强化学习的信息路径规划模型;状态s的价值V(s)定义为:
V(s)=r(s,a,s′)+γV(s′)
其中,γ∈[0,1],s′代表根据策略π(·)选择下一动作ψi+1=a~π(s)的后继状态;
状态s定义为:
s=(sm,a-)
4.根据权利要求1所述的无人机自适应信息路径规划方法,其特征在于,步骤S3中,设计的策略价值网络包括公共网络层、行动策略层和状态价值层,表示为fθ(s)=(p,v),其中,fθ(s)表示策略价值网络,p表示策略,v表示价值;其中,策略网络由行动策略层和公共网络层构成,输出各个动作的概率;价值网络由状态价值层和公共网络层构成,用于评判当前地图的价值;策略网络和价值网络共享公共网络层,公共网络层由10个Non-bottleneck-1D块组成;此后再分成策略policy和价值value两个输出,均由3个卷积块和全局平均池组成;最后,完全连接的图层投影到策略向量和单个正标量值。
5.根据权利要求4所述的无人机自适应信息路径规划方法,其特征在于,步骤S4具体是采用蒙特卡洛树搜索在搜索过程中生成地图样本,具体包括以下步骤:
其中,Q(s,a)=r(s,a,s′)+γV(s′)代表行动价值;Pa(s)表示状态s下可行动作a的先验概率;表示状态s下父节点的访问计数;N(s,a)表示状态s下可行动作a被选中的次数;表示勘探因子;
为了加强探索的广度,将Dirichlet噪声添加到状态为s(r)的根节点的P(s(r)):
P(s(r))=(1-∈)π(s(r))+∈η
其中,∈∈[0,1],噪声η~Dir(δ),δ>0;
S42:当搜索还没结束且当前结点为叶子节点时,就需要进行扩展;扩展新的结点作为当前结点的子节点,将当前局面输入策略价值网络得到策略p和价值v;
S43:如果搜索达到了预算B或最大步数,或者未扩展的状态就执行扩展操作,则将价值回传给上一层,对上一层的值进行更新,被选中的次数加1,行动价值加v;
S44:选择下一个可达测量位置之前,会进行固定次数的模拟,每次模拟都包含以上3个步骤,在此基础上蒙特卡洛树搜索才会做出真正的决策,公式如下:
根据策略,系统采样进行当前状态的动作决策,得到a~π(s);当搜索达到预算B或者最大步数时搜索过程结束,得到在s地图状态下,采用策略π(s)执行动作a,最终的行动价值为V(s)。
6.根据权利要求5所述的无人机自适应信息路径规划方法,其特征在于,步骤S5中,对策略价值网络训练优化具体包括:策略价值网络的输入为当前的地图状态s,输出为到下一个可达测量位置的概率p和对当前状态的行动价值估计v;训练策略价值网络采用主动探索阶段得到的样本集合(s,a,π(s),V(s),B),训练的目的是让策略价值网络输出当前地图状态下到每个可达测量位置的概率p更加接近蒙特卡洛树搜索输出的概率π(s),让策略价值网络输出的行动价值v更加接近真实的搜索结果V(s);在主动探索得到的数据集上不断地最小化损失函数,定义如下:
l(s)=α(V(s)-v)2-βπ(s)Tlogp+λ||θ2||
其中,V(s)表示真实的搜索结果;v表示策略价值网络输出的行动价值;π(s)表示蒙特卡洛树搜索输出的概率;p为策略价值网络输出当前地图状态下到每个可达测量位置的概率;α,β,λ≥0是超参数;λ||θ2||是用于防止过拟合的正则项。
7.根据权利要求6所述的无人机自适应信息路径规划方法,其特征在于,步骤S7具体包括:使用更新后的策略价值网络与蒙特卡洛树搜索结合的方式对地形进行探索,当搜索达到预算B或者最大步数时,完成整个搜索过程;其中,每一个测量位置表示无人机的飞行路径点,即测量位置的集合即为无人机用于数据收集的信息路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310169372.6A CN116088579A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的无人机自适应信息路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310169372.6A CN116088579A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的无人机自适应信息路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116088579A true CN116088579A (zh) | 2023-05-09 |
Family
ID=86202605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310169372.6A Pending CN116088579A (zh) | 2023-02-27 | 2023-02-27 | 一种基于深度强化学习的无人机自适应信息路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116088579A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116673968A (zh) * | 2023-08-03 | 2023-09-01 | 南京云创大数据科技股份有限公司 | 基于强化学习的机械臂轨迹规划要素选择方法及系统 |
CN117346797A (zh) * | 2023-12-06 | 2024-01-05 | 合肥井松智能科技股份有限公司 | 一种基于蒙特卡洛搜索树的b样条路径规划方法 |
-
2023
- 2023-02-27 CN CN202310169372.6A patent/CN116088579A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116673968A (zh) * | 2023-08-03 | 2023-09-01 | 南京云创大数据科技股份有限公司 | 基于强化学习的机械臂轨迹规划要素选择方法及系统 |
CN116673968B (zh) * | 2023-08-03 | 2023-10-10 | 南京云创大数据科技股份有限公司 | 基于强化学习的机械臂轨迹规划要素选择方法及系统 |
CN117346797A (zh) * | 2023-12-06 | 2024-01-05 | 合肥井松智能科技股份有限公司 | 一种基于蒙特卡洛搜索树的b样条路径规划方法 |
CN117346797B (zh) * | 2023-12-06 | 2024-03-19 | 合肥井松智能科技股份有限公司 | 一种基于蒙特卡洛搜索树的b样条路径规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rückin et al. | Adaptive informative path planning using deep reinforcement learning for uav-based active sensing | |
CN116088579A (zh) | 一种基于深度强化学习的无人机自适应信息路径规划方法 | |
Mazoure et al. | Leveraging exploration in off-policy algorithms via normalizing flows | |
Flaspohler et al. | Information-guided robotic maximum seek-and-sample in partially observable continuous environments | |
CN110443364A (zh) | 一种深度神经网络多任务超参数优化方法及装置 | |
Zhu et al. | Off-road autonomous vehicles traversability analysis and trajectory planning based on deep inverse reinforcement learning | |
CN113487221B (zh) | 面向动态目标观测的空天异构对地观测资源协同调度方法 | |
Mirkhani et al. | A novel efficient algorithm for mobile robot localization | |
CN112633591B (zh) | 一种基于深度强化学习的空间搜索方法及设备 | |
US11513533B2 (en) | Topological belief space planning | |
CN104156943B (zh) | 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法 | |
Sadhu et al. | Aerial-DeepSearch: Distributed multi-agent deep reinforcement learning for search missions | |
CN116520281B (zh) | 一种基于ddpg的扩展目标跟踪优化方法和装置 | |
CN113537580A (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
Wang et al. | Virtual maps for autonomous exploration with pose SLAM | |
CN114626307B (zh) | 一种基于变分贝叶斯的分布式一致性目标状态估计方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
Gellert et al. | Estimation of missing LiDAR data for accurate AGV localization | |
Zhang et al. | Enhancing Multi-UAV Reconnaissance and Search Through Double Critic DDPG With Belief Probability Maps | |
CN109712389B (zh) | 一种基于Copula和Monte-Carlo模拟的路径行程时间估计方法 | |
Louati | Cloud-assisted collaborative estimation for next-generation automobile sensing | |
Ming et al. | Growing Neural Gas Network-based surrogate-assisted Pareto set learning for multimodal multi-objective optimization | |
Zhang et al. | Universal value iteration networks: When spatially-invariant is not universal | |
Havangi et al. | An optimization based method for simultaneous localization and mapping | |
Wurm et al. | Improved Simultaneous Localization and Mapping using a Dual Representation of the Environment. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |