CN116892932B - 一种结合好奇心机制与自模仿学习的导航决策方法 - Google Patents

一种结合好奇心机制与自模仿学习的导航决策方法 Download PDF

Info

Publication number
CN116892932B
CN116892932B CN202310634852.5A CN202310634852A CN116892932B CN 116892932 B CN116892932 B CN 116892932B CN 202310634852 A CN202310634852 A CN 202310634852A CN 116892932 B CN116892932 B CN 116892932B
Authority
CN
China
Prior art keywords
algorithm
strategy
function
action
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310634852.5A
Other languages
English (en)
Other versions
CN116892932A (zh
Inventor
臧兆祥
吕相霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202310634852.5A priority Critical patent/CN116892932B/zh
Publication of CN116892932A publication Critical patent/CN116892932A/zh
Application granted granted Critical
Publication of CN116892932B publication Critical patent/CN116892932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种结合好奇心机制与自模仿学习的导航决策方法,包括仿真环境的配置、对图像信息编码、智能体与环境互动获取信息并存入经验池、基于时间步进行采样获取数据、将获取数据作为输入至ICM算法模型获得内在奖励、把观测数据与总奖励作为输入至SIL算法模型学习新策略、智能体训练、训练结果分析。本发明的有益效果为:所提出的PPO‑CI算法有利于鼓励智能体探索更多未知的场景,应对更为复杂的情况,在部分可观测环境中智能体能够通过模仿好奇心引领下所获取的高回报轨迹使得训练快速达到收敛效果,该方法能应对随机多变的无地图场景,能够完成更为复杂的探索任务。

Description

一种结合好奇心机制与自模仿学习的导航决策方法
技术领域
本发明属于计算机技术领域,具体涉及一种结合好奇心机制与自模仿学习的导航决策方法。
背景技术
近年来许多学者尝试通过深度强化学习算法解决未知环境(非完备信息)中的决策问题,未知环境中的智能决策过程又被称为部分可观测马尔科夫过程(POMDP)。但POMDP任务常存在着信息缺失与稀疏奖励在该类环境中仅能依靠当前状态获取的部分环境信息进行分析与决策。稀疏奖励问题是指任务的奖励必须在一定的时间步内完成特定的操作或任务才能获取,这使得智能体在探索过程中很难收到奖励信号,以此很难获取更好的动作选择,使得智能体在无地图的环境中常常迷失方向,无法完成导航任务。
针对以上问题,学者们主要采用回放历史信息、好奇心探索机制等方法。申请公布号为CN114781644A的专利文献公开了一种基于好奇心和对经验数据的优先化进行探索的方法,该方法通过策略之间的相似性来计算最终奖励;并将策略之间的差异结果放在回放缓冲器上执行聚类,并且对簇中的数据执行采样。申请公布号为CN113156940A的专利文献公开了一种基于好奇心-贪婪奖励函数的机器人路径规划的方法,该方法通过好奇心奖励函数、贪心奖励函数和奖励融合函数,引导机器人进入正确的探索方向,融合两种奖励函数,在不同的规划阶段得到更准确有效的奖励值,有助于提高机器人路径规划能力。但上述方法都不能有效地解决探索过度与利用不足的平衡问题,并且也不能高效地完成探索任务。
随着深度强化学习的发展,自模仿学习算法被提出用于解决经验数据利用效率低的问题,该算法通过模仿自身生成的优质探索轨迹提高探索效率,但也存在缺乏自主探索的能力。而好奇心算法正是促进智能体进行探索的有效方法。
因此,申请人提出一种结合好奇心机制与自模仿学习的导航决策方法。
发明内容
本发明的目的是为了解决现有技术存在的对于部分可观测环境探索任务中无法高效地解决稀疏奖励与信息缺失等问题,而提供的一种结合好奇心机制与自模仿学习的导航决策方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种结合好奇心机制与自模仿学习的导航决策方法,它包括以下步骤:
步骤1:初始化仿真环境的动作、状态信息,初始化经验池;
步骤2:设置智能体的神经网络模型,初始化网络参数,并设定算法的超参数;
步骤3:对环境中的图像信息进行编码,压缩状态信息;
步骤4:智能体与环境交互,获取动作并反馈给环境获取下一状态信息与奖励值,然后存入经验池中;
步骤5:对每一时间步,使用当前的策略网络在环境中进行采样,得到观测数据和采取的动作,经过ICM算法的内在动力学模型进行处理,预测下一个时间步的观测数据和奖励信号,将这个奖励信号与环境反馈的奖励信号进行加权平均,得到新的奖励信号;
步骤6:将新的策略网络和旧的策略网络进行比较,使用PPO算法来更新策略网络的参数;
步骤7:将得到的观测数据和新的奖励信号作为输入,使用SIL算法来学习一个新的策略;具体的,SIL算法选择那些奖励折扣累积值最大的样本,或者选择和最大值相差不超过一定阈值的所有样本作为更新策略网络的经验数据;
步骤8:重复步骤4到步骤7,直到智能体的策略收敛到最优解或达到一定的迭代次数,最终完成探索任务。
在步骤3中,具体包括以下步骤:
3-1:将由步骤1获取到的环境数据中的图像信息进行整体编码处理;
3-2:根据图像中某个单位的独特信息进行特殊细节编码设计;
3-3:整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
在步骤4中,具体包括以下步骤:
4-1将当前的状态信息输入到策略网络中获取选择的动作以及所有动作对应的概率;
4-2将所选动作输入到环境中的step函数中获取奖励,下一状态信息以及完成信息等。
在步骤5中,具体如下:
将当前状态信息以及步骤4获取的下一状态信息和选取动作输入到ICM动力学模型中,预测下一个时间步的状态信息,ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间,通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值,具体涉及到的公式如:
其中rt为t时刻获得的总奖励值,为经过ICM动力学模型计算所得的内在奖励值,为与环境互动所获得的外在奖励值;
通过具有参数θP的深度神经网络来表示策略π(st;θP),使用参数θP进行优化获得最大的期望奖励值总和∑trt
通过输入当前状态st与下一状态st+1和训练参数θI来预测从st转移到st+1的动作g表示为学习函数,也被称为逆动力学模型,通过不断训练与优化参数θI达到最佳的学习效果;/>是测量预测动作与实际动作之间差异的损失函数,通过最小化损失函数获取θI的最大似然估计值已更新预测动作估计值。
除逆动力学模型之外,还训练了另一个神经网络,将当前采取动作at与当前状态的特征编码φ(st)作为输入,预测下一个时间步t+1处的状态特征编码;
其中,是φ(st+1)的预测估计,通过最小化损失函数LF来优化神经网络参数θF,学习函数f也被称为前向动力学模型,/>表示L2范数的平方,内在奖励计算如式所示:
其中,η是缩放因子,表示L2范数的平方,最终智能体的学习优化问题为公式:
其中,β是相对于前向模型损失对逆模型损失进行加权的标量,而λ是相对于学习固有奖励的重要性对策略梯度损失的重要性进行加权的标量。
在步骤6中,具体如下:
通过基于梯度裁剪的PPO算法进行策略更新,使用重要性采样评估新旧策略的差距,重要性采样公式为:
其中,θ为策略参数,πθold(a|s)表示旧策略,πθ(a|s)表示新策略。PPO算法通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]
其中,r(θ)为重要性采样比,clip为裁剪函数,ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值,当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率,PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大,分别计算策略损失熵与价值损失熵,策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值,最后反向传播,更新策略参数,策略梯度参数更新公式为:
其中,θ为策略参数,argmax表使期望取得最大值时得求值函数,LCLIP(θ)表示PPO-clip算法的损失函数。
在步骤7中,具体如下:
7-1:初始化经验缓冲池大小,然后通过智能体与环境互动产生探索经验与累计奖励并存入经验池;
7-2:利用经验池中良好的状态动作对进行轨迹模仿,训练一个新的策略网络,计算公式如:
其中,为SIL算法的总损失函数,/>为SIL算法的策略损失函数,/>为对应的价值损失函数,而βsil为价值损失函数对应的超参数,Vθ(s)代表对应状态s的价值函数,(·)+表示为max(·,0),以此鼓励智能体模仿自己的决定,只有当这些决定所获得回报比预期更大时才选择更新/>||.||2表示欧几里得范数。
与现有技术相比,本发明具有如下技术效果:
1)本发明以好奇心机制与自模仿学习算法思想为基础,提出了一种融合好奇心与自模仿学习的深度强化学习算法(Proximal Policy OptimizationwithCuriosityandImitation,即PPO-CI算法);
2)本发明算法利用好奇心鼓励智能体探索未知场景,避免局部收敛的情况,并且充分利用自模仿学习从具有良好探索表现的历史经验数据中学习和改进。该算法平衡了探索不足与探索过度的问题,同时具有较快达到收敛效果的优势,能有效解决未知环境中的探索任务;
3)本发明使用基于自模仿学习与好奇心机制结合的深度强化学习算法(即PPO-CI算法)有利于鼓励智能体探索更多未知的场景,应对更为复杂的情况,在部分可观测环境中智能体能够通过模仿好奇心引领下所获取的高回报轨迹使得训练快速达到收敛效果。且该方法能应对随机多变的无地图场景,能够完成更为复杂的探索任务。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明中好奇心算法的原理图;
图2为本发明中好奇心算法与强化学习结合运用的框架图。
具体实施方式
本发明提出了一种结合好奇心算法(ICM算法)与自模仿学习算法(SIL算法)的近端策略优化算法(即PPO-CI算法)以解决POMDP探索任务。首先初始化网络参数与状态、动作等信息;然后基于时间步进行采样,得到观测数据和采取的动作;接着将观测数据和采取的动作作为输入,经ICM算法模型获得内在奖励,并与环境反馈的外在奖励进行加权,获得总奖励值;将观测数据与总奖励作为输入,经SIL算法学习新策略;通过比较新旧策略,更新PPO算法策略网络参数。
本发明的技术方案是基于好奇心与自模仿学习的近端策略优化算法,包括以下步骤:
步骤1.初始化仿真环境的动作、状态信息,初始化经验池。
步骤2.设置智能体的神经网络模型,初始化网络参数,并设定算法的超参数;
步骤3.对环境中的图像信息进行编码,压缩状态信息,提高训练效率。
步骤4.智能体与环境交互,获取动作并反馈给环境获取下一状态信息与奖励值,然后存入经验池中。
步骤5.对每一时间步,使用当前的策略网络在环境中进行采样,得到观测数据和采取的动作,经过ICM算法的内在动力学模型进行处理,预测下一个时间步的观测数据和奖励信号。将这个奖励信号与环境反馈的奖励信号进行加权平均,得到新的奖励信号;
步骤6.将新的策略网络和旧的策略网络进行比较,使用PPO算法来更新策略网络的参数。
步骤7.将得到的观测数据和新的奖励信号作为输入,使用SIL算法来学习一个新的策略。具体而言,SIL算法选择那些奖励折扣累积值最大的样本,或者选择和最大值相差不超过一定阈值的所有样本作为更新策略网络的经验数据。这样做的目的是为了让代理尽可能地学习到最优的轨迹,从而改善策略。
步骤8.重复步骤4到步骤7,直到智能体的策略收敛到最优解或达到一定的迭代次数,最终完成探索任务。
步骤3具体包括:
3.1.将步骤1获取到的环境数据中的图像信息进行整体编码处理。
3.2根据图像中某个单位的独特信息进行特殊细节编码设计。
3.3整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
步骤4具体包括:
4.1将当前的状态信息输入到策略网络中获取选择的动作以及所有动作对应的概率。
4.2将所选动作输入到环境中的step函数中获取奖励,下一状态信息以及完成信息等。
步骤5具体包括:
将当前状态信息以及步骤4获取的下一状态信息和选取动作输入到ICM动力学模型中,预测下一个时间步的状态信息。ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间,通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值。具体涉及到的公式如:
其中rt为t时刻获得的总奖励值,为经过ICM动力学模型计算所得的内在奖励值,为与环境互动所获得的外在奖励值。
通过具有参数θP的深度神经网络来表示策略π(st;θP),使用参数θP进行优化获得最大的期望奖励值总和∑trt
通过输入当前状态st与下一状态st+1和训练参数θI来预测从st转移到st+1的动作g表示为学习函数,也被称为逆动力学模型。通过不断训练与优化参数θI达到最佳的学习效果。/>是测量预测动作与实际动作之间差异的损失函数。通过最小化损失函数获取θI的最大似然估计值已更新预测动作估计值。
除逆动力学模型之外,还训练了另一个神经网络,将当前采取动作at与当前状态的特征编码φ(st)作为输入,预测下一个时间步t+1处的状态特征编码。
其中是φ(st+1)的预测估计,通过最小化损失函数LF来优化神经网络参数θF,学习函数f也被称为前向动力学模型,/>表示L2范数的平方,内在奖励计算如式所示:
其中η是缩放因子,表示L2范数的平方,最终智能体的学习优化问题为公式:
其中β是相对于前向模型损失对逆模型损失进行加权的标量,而λ是相对于学习固有奖励的重要性对策略梯度损失的重要性进行加权的标量。
步骤6具体包括:
通过基于梯度裁剪的PPO算法进行策略更新,使用重要性采样评估新旧策略的差距。重要性采样公式为:
其中,θ为策略参数,πθold(a|s)表示旧策略,πθ(a|s)表示新策略。PPO算法通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A]
其中,r(θ)为重要性采样比,clip为裁剪函数,ε为超参数,A为优势函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值。当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率。PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大。分别计算策略损失熵与价值损失熵。策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值,最后反向传播,更新策略参数,策略梯度参数更新公式为:
其中,θ为策略参数,argmax表使期望取得最大值时得求值函数,LCLIP(θ)表示PPO-clip算法的损失函数。
步骤7具体包括:
7.1初始化经验缓冲池大小,然后通过智能体与环境互动产生探索经验与累计奖励并存入经验池。
7.2利用经验池中良好的状态动作对进行轨迹模仿,训练一个新的策略网络。计算公式如:
其中,为SIL算法的总损失函数,/>为SIL算法的策略损失函数,/>为对应的价值损失函数,而βsil为价值损失函数对应的超参数,Vθ(s)代表对应状态s的价值函数,(·)+表示为max(·,0),以此鼓励智能体模仿自己的决定,只有当这些决定所获得回报比预期更大时才选择更新/>||.||2表示欧几里得范数。
下面结合具体实施例对本发明作进一步的解释:
基于自模仿学习与好奇心机制的PPO-CI导航算法,包括以下步骤:启动仿真环境、初始化网络参数与状态与动作信息以及经验池、对图像信息编码、智能体与环境互动获取信息并存入经验池、基于时间步进行采样获取数据,将获取数据作为输入至ICM算法模型获得内在奖励并加权环境奖励获取总奖励值、通过比较新旧策略,更新PPO和ICM算法的网络参数、将观测数据与总奖励作为输入至SIL算法模型学习新策略、反复重复步骤以上步骤直至算法收敛、通过可视化工具以及模型评估观察模型效果。
步骤3:将图像像素信息进行编码,压缩信息空间提升算法训练速度,获取到编码数据:x1,…,xt。具体环境信息如表1、表2和表3所示:
表1环境颜色编码信息
颜色 红色 绿色 蓝色 紫色 黄色 灰色
编号 0 1 2 3 4 5
表2环境目标物种类编码信息
目标物种类 不可见 无实物 地板
编号 0 1 2 3 4
表3环境目标物状态编码信息
目标物状态 开放 关闭 锁定
编号 0 1 2
步骤4:在当前时间步中智能体与环境互动获取当前的状态信息st,并基于该状态信息获取采取的动作at,再将动作反馈给环境获取下一状态信息st+1与奖励值Rt,然后将数据(st,at,Rt,st+1)存入经验池,供后续训练调用。
步骤5:基于时间步进行采样获取观测数据和采取的动作,将观测数据和采取的动作作为输入至ICM算法模型获得内在奖励,并于环境反馈的外在奖励进行加权,获得总奖励值。其中ICM算法的模型如图1所示。ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间,通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值。ICM算法与强化学习结合的工作机制如图2所示。总奖励计算公式为:
其中rt为t时刻获得的总奖励值,为经过ICM动力学模型计算所得的内在奖励值,为与环境互动所获得的外在奖励值,在稀疏奖励任务中大部分情况为0。而内在奖励计算公式为:
φ(st)为状态st的特征编码,而是φ(st+1)的预测估计,通过最小化损失函数LF来优化神经网络参数θF,η是缩放因子,/>表示L2范数的平方。
步骤6:采用PPO算法进行训练,将经验池中的数据按一定比例抽出,使用这批样本数据来更新策略网络的参数,从而让策略函数接近于最优策略函数。计算更新后的策略函数和旧策略函数之间的距离,并根据距离大小来更新策略函数的参数。其中PPO算法与自模仿学习结合的损失函数由其策略函数损失与价值函数损失加权所得,具体公式为:
其中,为PPO算法的总损失函数,/>为PPO的策略网络损失函数,/>为PPO的价值网络损失函数,πθ(a|s)是根据参数θ的策略函数在状态s下选取动作a的概率估计值,/>表示策略πθ之间的交叉熵,Vθ(st)表示st状态下的价值评估值,而/>表示的是n步累计的总价值,||.||2表示欧几里得范数。
本发明提出的PPO-CI算法分为两个训练模块,自模仿学习算法模块与PPO结合ICM算法的训练模块。涉及到PPO与ICM结合算法的训练损失函数如:
其中,LCILP+VF+S(θ)为PPO算法的损失函数,为PPO算法的策略梯度的损失,为PPO算法的价值函数的损失,S(st)指的是交叉熵的损失,而c1和c2为其对应系数。Vθ(st)表示基于状态st的预测价值函数值,Vt targ表示目标网络的value值。/>为ICM算法的前向模型损失值。
步骤7:将步骤5中采集的数据信息与经过ICM模型所计算的加权总奖励输入到SIL模型中,通过选择表现较好的一些轨迹进行复制。使用复制的轨迹训练一个新的策略网络,然后将训练好的新策略网络来执行策略改进,进一步优化策略并收集更多的数据。SIL算法总损失函数由对应的策略损失函数与值损失函数加权所得,具体如公式:
其中,为SIL算法的总损失函数,/>为SIL算法的策略损失函数,/>为对应的价值损失函数,而βsil为价值损失函数对应的超参数,Vθ(s)代表对应状态s的价值函数,(·)+表示为max(·,0),以此鼓励智能体模仿自己的决定,只有当这些决定所获得回报比预期更大时才选择更新/>||.||2表示欧几里得范数。
步骤8具体包括:
不断重复步骤4至步骤7直至算法收敛,直至完成探索任务或达到设置的迭代次数。
步骤9:为了比较训练模型的优劣,一个评估模型模块被设立,该模块从智能体与100个交互episode中获取表现最差的10次的reward值。然后,使用这些reward值与仅使用SIL模型、仅使用ICM模型和传统PPO算法模型进行比较,以分析各模型的优劣。另外,还设置了可视化模型评估,以观察基于PPO-CI算法在环境中的每一步决策,并分析该模型的性能。

Claims (6)

1.一种结合好奇心机制与自模仿学习的导航决策方法,其特征在于,它包括以下步骤:
步骤1:初始化仿真环境的动作、状态信息,初始化经验池;
步骤2:设置智能体的神经网络模型,初始化网络参数,并设定算法的超参数;
步骤3:对环境中的图像信息进行编码,压缩状态信息;
步骤4:智能体与环境交互,获取动作并反馈给环境获取下一状态信息与奖励值,然后存入经验池中;
步骤5:对每一时间步,使用当前的策略网络在环境中进行采样,得到观测数据和采取的动作,经过ICM算法的内在动力学模型进行处理,预测下一个时间步的观测数据和奖励信号,将这个奖励信号与环境反馈的奖励信号进行加权平均,得到新的奖励信号;
步骤6:将新的策略网络和旧的策略网络进行比较,使用PPO算法来更新策略网络的参数;
步骤7:将得到的观测数据和新的奖励信号作为输入,使用SIL算法来学习一个新的策略;具体的,SIL算法选择那些奖励折扣累积值最大的样本,或者选择和最大值相差不超过一定阈值的所有样本作为更新策略网络的经验数据;
步骤8:重复步骤4到步骤7,直到智能体的策略收敛到最优解或达到一定的迭代次数,最终完成探索任务。
2.根据权利要求1所述的方法,其特征在于,在步骤3中,具体包括以下步骤:
3-1:将由步骤1获取到的环境数据中的图像信息进行整体编码处理;
3-2:根据图像中某个单位的独特信息进行特殊细节编码设计;
3-3:整合状态信息,将图像数据信息最终压缩成编码信息,提高训练效率。
3.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下步骤:
4-1将当前的状态信息输入到策略网络中获取选择的动作以及所有动作对应的概率;
4-2将所选动作输入到环境中的step函数中获取奖励,下一状态信息以及完成信息。
4.根据权利要求1所述的方法,其特征在于,在步骤5中,具体如下:
将当前状态信息以及步骤4获取的下一状态信息和选取动作输入到ICM动力学模型中,预测下一个时间步的状态信息,ICM利用逆向动力学模型和前向动力学模型来学习一个新的特征空间,通过策略网络预测的下一状态信息与ICM动力学模型所预测的下一状态信息差异计算出对应的内在奖励值,具体涉及到的公式如:
其中rt为t时刻获得的总奖励值,为经过ICM动力学模型计算所得的内在奖励值,/>为与环境互动所获得的外在奖励值;
通过具有参数θP的深度神经网络来表示策略π(st;θP),使用参数θP进行优化获得最大的期望奖励值总和∑trt
通过输入当前状态st与下一状态st+1和训练参数θI来预测从st转移到st+1的动作g表示为学习函数,也被称为逆动力学模型,通过不断训练与优化参数θI达到最佳的学习效果;是测量预测动作与实际动作之间差异的损失函数,通过最小化损失函数获取θI的最大似然估计值已更新预测动作估计值;
除逆动力学模型之外,还训练了另一个神经网络,将当前采取动作at与当前状态的特征编码φ(st)作为输入,预测下一个时间步t+1处的状态特征编码;
其中,是φ(st+1)的预测估计,通过最小化损失函数LF来优化神经网络参数θF,学习函数f也被称为前向动力学模型,内在奖励计算如式所示:
其中,η是缩放因子,表示L2范数的平方,最终智能体的学习优化问题为公式:
其中,β是相对于前向模型损失对逆模型损失进行加权的标量,而λ是相对于学习固有奖励的重要性对策略梯度损失的重要性进行加权的标量。
5.根据权利要求1所述的方法,其特征在于,在步骤6中,具体如下:
通过基于梯度裁剪的PPO算法进行策略更新,使用重要性采样评估新旧策略的差距,重要性采样公式为:
其中,θ为策略参数,r(θ)表示重要性采样比,πθold(a|s)表示旧策略,πθ(a|s)表示新策略;通过梯度裁剪,限制策略参数的更新幅度,其公式如:
A=Q(s,a)-V(s,a)
LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1-ε,1+ε)A)]
其中ε为超参数,A为优势函数,clip为裁剪函数,Q(s,a)代表在状态s下采取动作a的累积奖励值,V(s,a)为状态估计值,LCLIP(θ)表示PPO-clip算法的损失函数;当优势函数A>0时,说明该动作比平均动作好,需要增大该动作选择概率,当A<0时,则需要减少该动作的选择概率,PPO算法较其他深度强化学习算法更保守,设置了上限为1+ε,下限为1-ε的区间限制策略参数更新幅度,保证新策略与旧策略相差不大,分别计算策略损失熵与价值损失熵,策略损失熵与价值损失熵乘以相应权重获取最终的损失函数值,最后反向传播,更新策略参数,策略梯度参数更新公式为:
其中,θ为策略参数,argmax表使期望取得最大值时得求值函数,LCLIP(θ)表示PPO-clip算法的损失函数。
6.根据权利要求1所述的方法,其特征在于,在步骤7中,具体如下:
7-1:初始化经验缓冲池大小,然后通过智能体与环境互动产生探索经验与累计奖励并存入经验池;
7-2:利用经验池中良好的状态动作对进行轨迹模仿,训练一个新的策略网络,计算公式如:
其中,为SIL算法的总损失函数,/>为SIL算法的策略损失函数,/>为对应的价值损失函数,而βsil为价值损失函数对应的超参数,πθ(a|s)是根据参数θ的策略函数在状态s下选取动作a的概率估计值,D代表经验池,R为累积奖励值,Vθ(s)代表对应状态s的价值函数,(·)+表示为max(·,0),以此鼓励智能体模仿自己的决定,只有当这些决定所获得回报比预期更大时才选择更新/>||.||2表示欧几里得范数。
CN202310634852.5A 2023-05-31 2023-05-31 一种结合好奇心机制与自模仿学习的导航决策方法 Active CN116892932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310634852.5A CN116892932B (zh) 2023-05-31 2023-05-31 一种结合好奇心机制与自模仿学习的导航决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310634852.5A CN116892932B (zh) 2023-05-31 2023-05-31 一种结合好奇心机制与自模仿学习的导航决策方法

Publications (2)

Publication Number Publication Date
CN116892932A CN116892932A (zh) 2023-10-17
CN116892932B true CN116892932B (zh) 2024-04-30

Family

ID=88311370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310634852.5A Active CN116892932B (zh) 2023-05-31 2023-05-31 一种结合好奇心机制与自模仿学习的导航决策方法

Country Status (1)

Country Link
CN (1) CN116892932B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490696A (zh) * 2023-10-23 2024-02-02 广州创源机器人有限公司 一种加速机器人导航效率的方法
CN118051306A (zh) * 2024-01-05 2024-05-17 天津大学 一种基于好奇心机制的边缘云系统调度方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932549A (zh) * 2017-05-25 2018-12-04 百度(美国)有限责任公司 倾听、交互和交谈:通过交互学习说话
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
CN113421345A (zh) * 2021-06-21 2021-09-21 东北大学 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN113671825A (zh) * 2021-07-07 2021-11-19 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN114162146A (zh) * 2022-02-09 2022-03-11 苏州浪潮智能科技有限公司 行驶策略模型训练方法以及自动驾驶的控制方法
CN114939861A (zh) * 2022-04-12 2022-08-26 大连理工大学 一种基于tms-ppo算法的肌肉骨骼机器人控制方法
CN115293361A (zh) * 2022-07-28 2022-11-04 东北大学 基于好奇心机制的Rainbow智能体训练方法
CN116147627A (zh) * 2023-01-04 2023-05-23 北京工业大学 一种结合深度强化学习和内在动机的移动机器人自主导航方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932549A (zh) * 2017-05-25 2018-12-04 百度(美国)有限责任公司 倾听、交互和交谈:通过交互学习说话
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
CN113421345A (zh) * 2021-06-21 2021-09-21 东北大学 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN113671825A (zh) * 2021-07-07 2021-11-19 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN114162146A (zh) * 2022-02-09 2022-03-11 苏州浪潮智能科技有限公司 行驶策略模型训练方法以及自动驾驶的控制方法
CN114939861A (zh) * 2022-04-12 2022-08-26 大连理工大学 一种基于tms-ppo算法的肌肉骨骼机器人控制方法
CN115293361A (zh) * 2022-07-28 2022-11-04 东北大学 基于好奇心机制的Rainbow智能体训练方法
CN116147627A (zh) * 2023-01-04 2023-05-23 北京工业大学 一种结合深度强化学习和内在动机的移动机器人自主导航方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的三维路径规划算法;黄东晋;蒋晨凤;韩凯丽;;计算机工程与应用;20201231(第15期);全文 *

Also Published As

Publication number Publication date
CN116892932A (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN116892932B (zh) 一种结合好奇心机制与自模仿学习的导航决策方法
CN108900346B (zh) 基于lstm网络的无线网络流量预测方法
CN112116080A (zh) 一种融合了注意力机制的cnn-gru水质预测方法
CN112561148A (zh) 基于一维卷积神经网络和lstm的船舶轨迹预测方法及系统
CN106201849B (zh) 一种有限数据驱动的长寿命部件余寿预测方法
CN113554466B (zh) 一种短期用电量预测模型构建方法、预测方法和装置
CN109215344B (zh) 用于城市道路短时交通流量预测的方法和系统
CN111767896B (zh) 一种清扫车底盘上装协同控制方法及感知识别实现装置
CN112130086B (zh) 一种动力电池剩余寿命预测方法及系统
CN110837915B (zh) 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法
CN116592883B (zh) 一种基于注意力和循环ppo实现的导航决策方法
CN114626598B (zh) 一种基于语义环境建模的多模态轨迹预测方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN114596726B (zh) 基于可解释时空注意力机制的停车泊位预测方法
CN109934422A (zh) 一种基于时间序列数据分析的神经网络风速预测方法
CN111582567B (zh) 一种基于递阶集成的风电功率概率预测方法
CN112132334A (zh) 一种用于城市生活垃圾产量的预测方法
CN116646929A (zh) 一种基于pso-cnn-bilstm的短期风电功率预测方法
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN114330815A (zh) 一种基于改进goa优化lstm的超短期风电功率预测方法与系统
CN118097228A (zh) 基于多教师辅助实例自适应dnn的移动平台多目标分类方法
CN110047088B (zh) 一种基于改进教与学优化算法的ht-29图像分割方法
CN115480585A (zh) 一种搭载强化学习智能体的无人设备集群协同探索方法
CN118350880B (zh) 一种现有建筑改造成本预测方法
CN117584792B (zh) 一种电动汽车充电站充电功率在线预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant