CN115107948B - 一种高效强化学习自主船舶避碰方法 - Google Patents
一种高效强化学习自主船舶避碰方法 Download PDFInfo
- Publication number
- CN115107948B CN115107948B CN202210731061.XA CN202210731061A CN115107948B CN 115107948 B CN115107948 B CN 115107948B CN 202210731061 A CN202210731061 A CN 202210731061A CN 115107948 B CN115107948 B CN 115107948B
- Authority
- CN
- China
- Prior art keywords
- autonomous
- ship
- collision avoidance
- learning
- autonomous ship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B43/00—Improving safety of vessels, e.g. damage control, not otherwise provided for
- B63B43/18—Improving safety of vessels, e.g. damage control, not otherwise provided for preventing collision or grounding; reducing collision damage
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B63—SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
- B63B—SHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING
- B63B79/00—Monitoring properties or operating parameters of vessels in operation
- B63B79/20—Monitoring properties or operating parameters of vessels in operation using models or simulation, e.g. statistical models or stochastic models
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- Ocean & Marine Engineering (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种高效强化学习自主船舶避碰方法,解决不确定环境下采用强化学习算法实现自主船舶避碰过程中易陷入局部迭代和收敛速度过慢问题。本发明针对实际航行环境下船舶避让决策考虑的会遇态势变化和转向率问题,构建综合考虑外部收益信号与内部激励信号结合的全新奖励函数,鼓励自主船舶对状态迁移概率较低的环境进行搜索。在内部激励信号与外部收益信号协同驱动训练的过程中,利用学习经验复用,挖掘历史训练数据的隐藏特征,保存累计回报期望值较大的策略,并利用随机概率模型对好的策略迁移应用,减少强化学习在自主船舶搜索过程中刻意学习和盲目性学习问题,进一步提高了自主船舶避碰方法的学习效率。
Description
技术领域
本发明涉及自主船舶避碰和强化学习技术领域,具体而言,尤其涉及一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法。
背景技术
传统的海上安全保障是指以视觉航标、海图、VHF语音发布助航信息等手段进行的航标服务、测绘服务、海上通信服务等,以保障船舶航行安全和海上安全。然而,随着自主船舶的时代来临,取而代之的海上安全保障与航海保障技术应该是根据自主船舶的智能导航系统技术标准、航行特征来提供的相应服务及技术。船舶自主航行技术是一项海上安全保障关键技术,其融合了智能感知、智能避碰、决策、控制及通信等高新技术。在实际海上航行环境下,智能避碰是船舶自主航行技术中最为重要的部分,其作为自主航行系统最能体现智能化的模块,以决策与规划层融入航行大脑中,在障碍环境下实现自主船从转向点航行至另一转向点或是港-港无碰撞的安全航行。
近年来,随着新一代人工智能技术的发展,以强化学习(Reinforcementlearning,RL)为代表的智能学习方法逐渐成熟应用至机器人、无人机、无人车、无人船等领域,并在智能优化调度、决策规划及预测等领域取得了可观的成果。RL是一种基于人工智能的优化学习方法。与传统的优化或规划算法相比,该方法不依赖先验知识和监督信息,通过与环境交互“试错”,平衡探索与利用,最终实现学习优化与规划。依据这一优势,其在自主船决策、规划与控制领域得到了越来越多的关注和研究。
在不确定环境中“连续状态空间-连续动作空间”的高维强化学习避碰问题中,现有众多研究将状态空间与动作空间离散化处理,而基于值函数的强化学习方法是解决离散化处理后的避碰规划问题的主流方法。现有的一些强化学习避碰算法的基本步骤是先评估随机动作下的值函数,在利用值函数改善当前状态-行为下对应的策略。其中值函数的评估是关键,目前并没有刻意保证收敛到全局最优的状态值函数估计方法。为了尽可能的达到全局较优,就需要对全局状态进行大量的采样学习与交互,进而导致了算法迭代速度慢且易陷入局部迭代。
事实上,迭代速度慢、学习效率低是强化学习解决优化问题的典型缺点。现有的一种基本方法是融合其他算法实现对强化学习的改进。引入人工势场就需要知道确切的环境信息和需要很特定的场景数学模型,这也与采用强化学习解决不确定环境中避障及规划问题的初衷所违背。但是近年来一些学者将人工势场的思想融入强化学习的激励函数中,也可以较好的提高强化学习的样本搜索和迭代效率。另外一种有效提高学习效率的途径是更充分地利用学习经验,目前在其他领域有一些成功的应用实例。与常规的Q学习相比,该算法显著加快了学习速度,但由于其仍然是基于值函数的搜索方法,因此在复杂环境下的探索与利用难以较好的平衡,收敛性难以保证。
发明内容
根据上述提出的技术问题,提供一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法。本发明针对不确定环境中的多船智能避碰问题,将学习经验复用(Learning experience reuse,LER)思想引入到强化学习算法中,提出一种新的直接策略搜索快速强化学习自主船避碰方法。首先,本发明引入学习经验复用改进强化学习自主船舶避碰方法,有效地利用经验信息,使状态值函数的近似过程有更快的收敛速度;然后,从外部收益信号奖励和内部激励信号奖励两方面设计奖励函数。外部收益信号奖励主要考虑了位置、速度、目标和塑造等奖励;另一方面,通过内部激励信号提高算法对环境探索的利用。
本发明采用的技术手段如下:
一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,包括:
S1、根据自适应语义演化算法构建航行态势判别网络,获取自主船舶在不确定环境下可行域与障碍域的航行环境状态;
S2、结合国际海上避碰规则与自主船舶会遇局面特征创建自主船舶避碰决策动作空间,采用罗经点法构建以转向为主的避让方式;
S3、设计外部收益信号网络;
S4、设计内部激励信号网络;
S5、对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练;
S6、基于随机传输控制误差矩阵逼近最优近似策略,避碰学习经验复用,得到高效强化学习自主船舶避碰模型。
进一步地,所述步骤S1中,构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域,用于初始化自主船舶环境状态;具体为:
在自主船舶航行过程中,将水域划分为障碍域、运动可达域多个环境状态域;当判别为运动可达域时自主船通过与环境交互、探索,在采取行为u1后,环境状态由x0随机迁移为x1并获得奖赏反馈r1,即:r1=R(x0,u1,x1),直到搜索至自主船达到运动目标位置,并使得这一过程的累计回报值最大,所对应的策略即自主船智能最优避碰策略。
进一步地,所述步骤S2中,创建自主船舶避碰决策动作空间,具体为:
根据航海实践及国际海上避碰规则要求,选择以转向为主的避让方式进行船舶避障,采用罗经点法构建避碰动作空间,主要包括四个基点、四个偶点、八个三字点以及平分相邻基点或偶点与三字点之间的十六个偏点,如下:
U={E,…,NE,…,NNE,…,N/E,…,NW/N}。
进一步地,所述步骤S3中,设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数,得到外部收益信号的初始化参数;具体的设计过程如下:
S31、设计包括距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数等方面的单项奖励函数,生成位置奖励rpos、速度奖励rvel、目标奖励rtarget、塑造奖励rshaping;其中:
位置奖励rpos,具体为:
上式中,dtarget为自主船与目标点之间的相对距离,dobstacle为自主船距离障碍物之间的相对距离;
速度奖励rvel,具体为:
rvel=-ωspe|Δvspe|+ωcouΔvcou 2-δ
上式中,Δvspe为自主船与障碍物相对速度变化量,||表示绝对值计算符号,Δvcou为航向角变化量,ωspe、ωcou分别为航速与航向角所对应的奖励权重,δ为航向角变化激励值求和常数;
目标奖励rtarget,具体为:
塑造奖励rshaping,具体为:
rshaping=γΦ(xt+1)-Φ(xt)
S32、求和计算外部收益信号奖励值:
进一步地,所述步骤S4中,设计的内部激励信号网络,负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样,得到环境搜索-利用值函数网络的初始化参数;具体为:
上式中,f为环境状态在当前的行为选择为Ot下由xt转移到xt+1的概率。
进一步地,所述步骤S5中,对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为:
创建强化学习自主避碰的奖励函数,奖励函数为外部收益信号奖励与内部激励信号奖励之和:
其中,外部收益信号奖励为
进一步地,所述步骤S6的具体实现过程如下:
S61、通过对历史训练数据的隐藏特征挖掘,将第t次较优的值函数Vt(x,u)进行保存,并作为避碰算法在第t+1次利用阶段与计算值函数更新表的初始值;
S62、同时,在专家策略πexp的作用下,将动作-状态迁移集合(x,u,r,x′)存入RLCA算法当前值网络中的记忆回放单元,复用算法的学习经验,以供随机赋于值函数初始值,以便于算法在训练过程中的迭代收敛效果发生客观的改进。
较现有技术相比,本发明具有以下优点:
1、针对海上不确定环境下自主船舶的环境感知不全面问题,本发明解决了传统方法无法获取全局完备航行环境状态的问题,设计网络用以判别自主船舶当前所处于障碍域或是运动可达域。
2、针对传统强化学习在搜索采样效率低及刻意学习等问题,本发明提出了一种考虑内部激励信号和外部收益信号协同驱动的全新奖励函数,提高避碰算法在搜索期间的采样效率。
3、在强化学习避碰过程中,提出一种由势函数构成的塑造奖励,减少强化学习在探索过程中的盲目性导致的坏策略过多的问题。
4、在训练后期通过经验复用,提高算法的收敛速度,使得自主船舶能够学到更好的避碰策略。
基于上述理由本发明可在自主船舶避碰和强化学习等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明方法总体理论架构图。
图3为本发明实施例提供的航行态势判别示意图。
图4为本发明实施例提供的外部收益信号奖励组成示意图。
图5为本发明实施例提供的高效强化学习自主船舶避碰轨迹示意图。
图6为本发明实施例提供的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰训练迭代效果图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
如图1、2所示,本发明提供了一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,包括:
S1、根据自适应语义演化算法构建航行态势判别网络,获取自主船舶在不确定环境下可行域与障碍域的航行环境状态;
S2、结合国际海上避碰规则与自主船舶会遇局面特征创建自主船舶避碰决策动作空间,采用罗经点法构建以转向为主的避让方式;
S3、设计外部收益信号网络;
S4、设计内部激励信号网络;
S5、对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练;
S6、基于随机传输控制误差矩阵逼近最优近似策略,避碰学习经验复用,得到高效强化学习自主船舶避碰模型。
具体实施时,作文本发明优选的实施方式,所述步骤S1中,构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域,用于初始化自主船舶环境状态;具体为:
如图3所示,为航行态势判别示意图,在自主船舶航行过程中,将水域划分为障碍域、运动可达域多个环境状态域;当判别为运动可达域时自主船通过与环境交互、探索,在采取行为u1后,环境状态由x0随机迁移为x1并获得奖赏反馈r1,即:r1=R(x0,u1,x1),直到搜索至自主船达到运动目标位置,并使得这一过程的累计回报值最大,所对应的策略即自主船智能最优避碰策略。
具体实施时,作文本发明优选的实施方式,所述步骤S2中,创建自主船舶避碰决策动作空间,具体为:
根据航海实践及国际海上避碰规则要求,选择以转向为主的避让方式进行船舶避障,采用罗经点法构建避碰动作空间,主要包括四个基点、四个偶点、八个三字点以及平分相邻基点或偶点与三字点之间的十六个偏点,如下:
U={E,…,NE,…,NNE,…,N/E,…,NW/N}。
另外,本实施例中,在设计避碰动作空间时考虑了第13-15条国际海上避碰规则,主要限定了追越、对遇、交叉相遇局面的避让行为。
具体实施时,作文本发明优选的实施方式,所述步骤S3中,设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数,得到外部收益信号的初始化参数;具体的设计过程如下:
S31、设计包括距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数等方面的单项奖励函数,生成位置奖励rpos、速度奖励rvel、目标奖励rtarget、塑造奖励rshaping;如图4所示,其中:
位置奖励rpos,采用指数形式旨在防止船舶在目标点周围转圈,加快位置收益信号收敛,具体为:
上式中,dtarget为自主船与目标点之间的相对距离,dobstacle为自主船距离障碍物之间的相对距离;
速度奖励rvel,主要考虑了与动态障碍物之间的相对速度、自主船航向角变化量以及舵向角变化量,具体为:
rvel=-ωspe|Δvspe|+ωcouΔvcou 2-δ
上式中,Δvspe为自主船与障碍物相对速度变化量,||表示绝对值计算符号,Δvcou为航向角变化量,ωspe、ωcou分别为航速与航向角所对应的奖励权重,δ为航向角变化激励值求和常数;
目标奖励rtarget,指自主船完成避碰任务所获得的收益奖励,具体为:
塑造奖励rshaping,具体为:
rshaping=γΦ(xt+1)-Φ(xt)
本实施例中,为了减少自主船在避碰决策模型求解过程陷入局部迭代,并加快算法求解收敛,本发明引入势函数(Potential Function,PF)约束的塑造奖励rshaping,其中势函数Φ(x)越大,环境状态越接近目标点,给定每个状态一个势能,从势能低的环境状态迁移到势能高的环境状态给正奖励,而从势能高的环境状态回到势能低的环境状态给负奖励。
S32、求和计算外部收益信号奖励值:
具体实施时,作文本发明优选的实施方式,所述步骤S4中,设计的内部激励信号网络,主要是为了提高算法对环境探索的利用,在选择随机行为时采用环境状态信号反馈提高目标搜索能力,鼓励自主船舶对状态迁移概率较低的环境进行搜索,负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样,得到环境搜索-利用值函数网络的初始化参数;具体为:
上式中,f为环境状态在当前的行为选择为Ot下由xt转移到xt+1的概率。
具体实施时,作文本发明优选的实施方式,所述步骤S5中,对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为:
创建强化学习自主避碰的奖励函数,奖励函数为外部收益信号奖励与内部激励信号奖励之和:
其中,外部收益信号奖励为
采样搜索网络包括当前实际值网络、预测值网络和目标值网络,当前实际值网络主要基于强化学习构建自主船舶避碰的马尔科夫决策过程模型,对环境采样后,通过奖励函数训练获得经验。同时采用梯度下降的方法对比预测值和目标值,进而完成避碰模型的迭代训练。最终生成累计回报值期望最大的策略,提取样本状态信息生成Known状态集并保存于记忆池网络,得到初始化动作-状态值表更新的初始值。如图5所示,为高效强化学习自主船舶避碰轨迹示意图。
具体实施时,作文本发明优选的实施方式,所述步骤S6的具体实现过程如下:
S61、通过对历史训练数据的隐藏特征挖掘,将第t次较优的值函数Vt(x,u)进行保存,并作为避碰算法在第t+1次利用阶段与计算值函数更新表的初始值;
S62、同时,在专家策略πexp的作用下,将动作-状态迁移集合(x,u,r,x′)存入RLCA算法当前值网络中的记忆回放单元,复用算法的学习经验,以供随机赋于值函数初始值,以便于算法在训练过程中的迭代收敛效果发生客观的改进。
在自主船舶避碰自然策略梯度估计过程中,将前期学习到的经验存入记忆池中,并传递给初始化值函数表,替代传统的将初始值设置为0或是数值区间的方法,并且选取期望值较大的状态转移变化传递给记忆回放单元,对算法新一轮搜索阶段提供方向诱导作用,极大地提高了强化学习自主船舶避碰算法收敛效率。如图6所示,为采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰训练迭代效果图。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,包括:
S1、根据自适应语义演化算法构建航行态势判别网络,获取自主船舶在不确定环境下可行域与障碍域的航行环境状态;
S2、结合国际海上避碰规则与自主船舶会遇局面特征创建自主船舶避碰决策动作空间,采用罗经点法构建以转向为主的避让方式;
S3、设计外部收益信号网络;
S4、设计内部激励信号网络;
S5、对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练;
S6、基于随机传输控制误差矩阵逼近最优近似策略,避碰学习经验复用,得到高效强化学习自主船舶避碰模型;
所述步骤S6的具体实现过程如下:
S61、通过对历史训练数据的隐藏特征挖掘,将第t次较优的值函数Vt(x,u)进行保存,并作为避碰算法在第t+1次利用阶段与计算值函数更新表的初始值;
S62、同时,在专家策略πexp的作用下,将动作-状态迁移集合(x,u,r,x′)存入RLCA算法当前值网络中的记忆回放单元,复用算法的学习经验,以供随机赋于值函数初始值,以便于算法在训练过程中的迭代收敛效果发生客观的改进。
2.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,所述步骤S1中,构建的航行态势判别网络是用于检测和判别自主船舶航行水域所处什么环境状态域,用于初始化自主船舶环境状态;具体为:
在自主船舶航行过程中,将水域划分为障碍域、运动可达域多个环境状态域;当判别为运动可达域时自主船通过与环境交互、探索,在采取行为u1后,环境状态由x0随机迁移为x1并获得奖赏反馈r1,即:r1=R(x0,u1,x1),直到搜索至自主船达到运动目标位置,并使得这一过程的累计回报值最大,所对应的策略即自主船智能最优避碰策略。
3.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,所述步骤S2中,创建自主船舶避碰决策动作空间,具体为:
根据航海实践及国际海上避碰规则要求,选择以转向为主的避让方式进行船舶避障,采用罗经点法构建避碰动作空间,主要包括四个基点、四个偶点、八个三字点以及平分相邻基点或偶点与三字点之间的十六个偏点,如下:
U={E,…,NE,…,NNE,…,N/E,…,NW/N}。
4.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,所述步骤S3中,设计外部收益信号网络是监督学习距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数,得到外部收益信号的初始化参数;具体的设计过程如下:
S31、设计包括距离目标点位置、与动态障碍船舶之间相对速度、自主船舶航向角变化量,舵向角变化量与环境势场函数等方面的单项奖励函数,生成位置奖励rpos、速度奖励rvel、目标奖励rtarget、塑造奖励rshaping;其中:
位置奖励rpos,具体为:
上式中,dtarget为自主船与目标点之间的相对距离,dobstacle为自主船距离障碍物之间的相对距离;
速度奖励rvel,具体为:
rvel=-ωspe|Δvspe|+ωcouΔvcou 2-δ
上式中,Δvspe为自主船与障碍物相对速度变化量,||表示绝对值计算符号,Δvcou为航向角变化量,ωspe、ωcou分别为航速与航向角所对应的奖励权重,δ为航向角变化激励值求和常数;
目标奖励rtarget,具体为:
塑造奖励rshaping,具体为:
rshaping=γΦ(xt+1)-Φ(xt)
S32、求和计算外部收益信号奖励值:
5.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,所述步骤S4中,设计的内部激励信号网络,负责驱动自主船舶对状态迁移概率较低的航行环境进行搜索采样,得到环境搜索-利用值函数网络的初始化参数;具体为:
上式中,f为环境状态在当前的行为选择为Ot下由xt转移到xt+1的概率。
6.根据权利要求1所述的采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法,其特征在于,所述步骤S5中,对步骤S3设计的外部收益信号网络和步骤S4设计的内部激励信号网络进行强化学习高效采样训练的具体方式为:
创建强化学习自主避碰的奖励函数,奖励函数为外部收益信号奖励与内部激励信号奖励之和:
其中,外部收益信号奖励为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210731061.XA CN115107948B (zh) | 2022-06-24 | 2022-06-24 | 一种高效强化学习自主船舶避碰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210731061.XA CN115107948B (zh) | 2022-06-24 | 2022-06-24 | 一种高效强化学习自主船舶避碰方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115107948A CN115107948A (zh) | 2022-09-27 |
CN115107948B true CN115107948B (zh) | 2023-08-25 |
Family
ID=83331036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210731061.XA Active CN115107948B (zh) | 2022-06-24 | 2022-06-24 | 一种高效强化学习自主船舶避碰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115107948B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116430860B (zh) * | 2023-03-28 | 2024-09-24 | 兰州大学 | 一种基于离线强化学习的机甲车自动行驶训练与控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108820157A (zh) * | 2018-04-25 | 2018-11-16 | 武汉理工大学 | 一种基于强化学习的船舶智能避碰方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112434464A (zh) * | 2020-11-09 | 2021-03-02 | 中国船舶重工集团公司第七一六研究所 | 基于maddpg强化学习算法的船舶多机械臂弧焊协同焊接方法 |
CN112507520A (zh) * | 2020-11-12 | 2021-03-16 | 深圳慧拓无限科技有限公司 | 一种基于强化学习的路径规划方法及装置 |
CN112580261A (zh) * | 2020-12-23 | 2021-03-30 | 武汉理工大学 | 一种多船避碰决策方法及装置 |
DE102021004426A1 (de) * | 2021-08-31 | 2021-11-25 | Daimler Ag | Verfahren zum Trainieren einer autonomen Fahrfunktion |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792531B2 (en) * | 2015-09-16 | 2017-10-17 | Siemens Healthcare Gmbh | Intelligent multi-scale medical image landmark detection |
US11521056B2 (en) * | 2016-06-17 | 2022-12-06 | Graham Fyffe | System and methods for intrinsic reward reinforcement learning |
US10678241B2 (en) * | 2017-09-06 | 2020-06-09 | GM Global Technology Operations LLC | Unsupervised learning agents for autonomous driving applications |
-
2022
- 2022-06-24 CN CN202210731061.XA patent/CN115107948B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108820157A (zh) * | 2018-04-25 | 2018-11-16 | 武汉理工大学 | 一种基于强化学习的船舶智能避碰方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112434464A (zh) * | 2020-11-09 | 2021-03-02 | 中国船舶重工集团公司第七一六研究所 | 基于maddpg强化学习算法的船舶多机械臂弧焊协同焊接方法 |
CN112507520A (zh) * | 2020-11-12 | 2021-03-16 | 深圳慧拓无限科技有限公司 | 一种基于强化学习的路径规划方法及装置 |
CN112580261A (zh) * | 2020-12-23 | 2021-03-30 | 武汉理工大学 | 一种多船避碰决策方法及装置 |
DE102021004426A1 (de) * | 2021-08-31 | 2021-11-25 | Daimler Ag | Verfahren zum Trainieren einer autonomen Fahrfunktion |
Non-Patent Citations (1)
Title |
---|
基于深度Q网络的水面无人艇路径规划算法;随博文;黄志坚;姜宝祥;郑欢;温家一;;上海海事大学学报(第03期);第5-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115107948A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110658829B (zh) | 一种基于深度强化学习的群无人艇智能避碰方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Zhang et al. | Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning | |
CN111483468B (zh) | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 | |
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN111273670B (zh) | 一种针对快速移动障碍物的无人艇避碰方法 | |
CN108762281A (zh) | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 | |
Lan et al. | Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning | |
Wang et al. | Cooperative collision avoidance for unmanned surface vehicles based on improved genetic algorithm | |
He et al. | A novel model predictive artificial potential field based ship motion planning method considering COLREGs for complex encounter scenarios | |
CN111880549A (zh) | 面向无人船路径规划的深度强化学习奖励函数优化方法 | |
Xiao et al. | Nautical traffic simulation with multi-agent system for safety | |
CN115809609B (zh) | 一种多水下自主航行器目标搜索方法及其系统 | |
Du et al. | An optimized path planning method for coastal ships based on improved DDPG and DP | |
CN115107948B (zh) | 一种高效强化学习自主船舶避碰方法 | |
Zheng et al. | A partially observable multi-ship collision avoidance decision-making model based on deep reinforcement learning | |
Wang et al. | Unmanned surface vessel obstacle avoidance with prior knowledge‐based reward shaping | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
Yang et al. | Improved reinforcement learning for collision-free local path planning of dynamic obstacle | |
Zhang et al. | Dynamic path planning algorithm for unmanned surface vehicle under island-reef environment | |
Gao et al. | An optimized path planning method for container ships in Bohai bay based on improved deep Q-learning | |
Hadi et al. | Cooperative motion planning and control of a group of autonomous underwater vehicles using twin-delayed deep deterministic policy gradient | |
Chaysri et al. | Unmanned surface vehicle navigation through generative adversarial imitation learning | |
Wang et al. | Efficient reinforcement learning for autonomous ship collision avoidance under learning experience reuse | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |