CN114609925A - 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 - Google Patents

水下探索策略模型的训练方法及仿生机器鱼水下探索方法 Download PDF

Info

Publication number
CN114609925A
CN114609925A CN202210043511.6A CN202210043511A CN114609925A CN 114609925 A CN114609925 A CN 114609925A CN 202210043511 A CN202210043511 A CN 202210043511A CN 114609925 A CN114609925 A CN 114609925A
Authority
CN
China
Prior art keywords
state information
training
strategy model
exploration
exploration strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210043511.6A
Other languages
English (en)
Other versions
CN114609925B (zh
Inventor
吴正兴
喻俊志
闫帅铮
王健
黄雨培
谭民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210043511.6A priority Critical patent/CN114609925B/zh
Publication of CN114609925A publication Critical patent/CN114609925A/zh
Application granted granted Critical
Publication of CN114609925B publication Critical patent/CN114609925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Toys (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法,本发明的水下探索策略模型的训练方法包括:通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型;从所述第一样本集中确定第二样本集;以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型。本发明的水下探索策略模型的训练方法通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练,能降低较为失败的动作对模型的影响,避免模型的参数陷入局部最优,从而增强了模型在实际环境中运用的鲁棒性与稳定性。

Description

水下探索策略模型的训练方法及仿生机器鱼水下探索方法
技术领域
本发明涉及机器人控制技术领域,尤其涉及一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法。
背景技术
近年来,仿生水下机器鱼凭借其特有的性能优势,受到了广泛关注。通过模仿鱼的外形和运动机理,仿生机器鱼具备高机动性和低扰动等特性,有潜力成为一个良好的水下作业平台。除了运动优势外,高效、稳定的自主探索导航算法也是仿生机器鱼实现水下勘探、搜救等应用的关键环节。
相关技术中通过仿真训练学习模型,再将学习模型应用于真实环境,向真实应用环境中的控制引入了仿真训练中的差异,从而导致控制器鲁棒性较差。
发明内容
本发明提供一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法,用以解决现有技术中控制器鲁棒性较差的缺陷,增强了仿生机器鱼的模型在实际环境中运用的鲁棒性与稳定性。
本发明提供一种水下探索策略模型的训练方法,包括:
通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,所述第一样本集包括仿生机器鱼的状态信息,所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定;
从所述第一样本集中,确定出第一状态信息,并获得与所述第一状态信息对应的第一动作信息;
基于所述第一状态信息和与所述第一状态信息对应的第一动作信息,确定第二样本集;
以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型。
根据本发明提供的一种水下探索策略模型的训练方法,所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息,所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。
根据本发明提供的一种水下探索策略模型的训练方法,所述以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型,包括:
在连续确定的所述第一状态信息的数量超过目标值的情况下,训练所述第一探索策略模型。
根据本发明提供的一种水下探索策略模型的训练方法,在所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型之前,所述方法还包括:
获取第三样本集,所述第三样本集还包括第三状态信息和与所述第三状态信息对应的第三动作信息,所述第三状态信息和所述第三动作信息为通过人工控制所述仿生机器鱼探索第二目标区域确定的;
以所述第三状态信息为样本,以所述第三动作信息为标签,训练探索策略模型,得到所述初始探索策略模型。
根据本发明提供的一种水下探索策略模型的训练方法,所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,包括:
根据预先为所述初始探索策略模型进行动作决策所配置的奖励函数,计算所述初始探索策略模型决策出的动作信息对应的奖励信息;
基于所述仿生机器鱼执行所述动作信息的前后状态信息以及所述奖励信息,更新所述初始探索策略模型的参数,得到第一探索策略模型。
根据本发明提供的一种水下探索策略模型的训练方法,所述奖励函数由多个子函数确定,所述奖励函数由以下公式确定:
R=ro+rd+ra+rs+rsp
其中,R表示奖励函数,ro表示碰撞损失子函数,rd表示有效路径长度子函数,ra表示有效探索范围子函数,rs表示探索路径平滑性子函数,rsp表示速度损失子函数。
本发明还提供一种仿生机器鱼水下探索方法,包括:
获取当前位置的目标状态信息;
将所述状态信息输入至如权利要求1-6任一项所述的水下探索策略模型的训练方法训练得到的所述第二探索策略模型,得到与所述目标状态信息对应的目标动作信息;
基于所述目标动作信息,控制所述仿生机器鱼进行运动。
本发明还提供一种水下探索策略模型的训练装置,包括:
第一训练模块,用于通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,所述第一样本集包括仿生机器鱼的状态信息,所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定;
第一处理模块,用于从所述第一样本集中,确定出第一状态信息,并获得与所述第一状态信息对应的第一动作信息;
第二处理模块,用于基于所述第一状态信息和与所述第一状态信息对应的第一动作信息,确定第二样本集;
第二训练模块,用于以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型。
根据本发明提供的一种水下探索策略模型的训练装置,所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息,所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。
根据本发明提供的一种水下探索策略模型的训练装置,所述第二训练模块还用于在连续确定的所述第一状态信息的数量超过目标值的情况下,训练所述第一探索策略模型。
根据本发明提供的一种水下探索策略模型的训练装置,还包括:
第三处理模块,用于获取第三样本集,所述第三样本集还包括第三状态信息和与所述第三状态信息对应的第三动作信息,所述第三状态信息和所述第三动作信息为通过人工控制所述仿生机器鱼探索第二目标区域确定的;
第三训练模块,用于以所述第三状态信息为样本,以所述第三动作信息为标签,训练探索策略模型,得到所述初始探索策略模型。
根据本发明提供的一种水下探索策略模型的训练装置,所述第一训练模块还用于根据预先为所述初始探索策略模型进行动作决策所配置的奖励函数,计算所述初始探索策略模型决策出的动作信息对应的奖励信息;所述第一训练模块还用于基于所述仿生机器鱼执行所述动作信息的前后状态信息以及所述奖励信息,更新所述初始探索策略模型的参数,得到第一探索策略模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述水下探索策略模型的训练方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述水下探索策略模型的训练方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述水下探索策略模型的训练方法的步骤。
本发明提供的水下探索策略模型的训练方法及仿生机器鱼水下探索方法,通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练,进而得到训练后的第二探索策略模型,能降低较为失败的动作对模型的影响,避免模型的参数陷入局部最优,从而增强了模型在实际环境中运用的鲁棒性与稳定性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的仿生机器鱼的结构示意图;
图2是本发明提供的仿生机器鱼自主探索的训练环境示意图;
图3是本发明提供的水下探索策略模型的训练方法的流程示意图;
图4是本发明提供的仿生机器鱼自主探索的轨迹示意图之一;
图5是本发明提供的仿生机器鱼自主探索的轨迹示意图之二;
图6是本发明提供的仿生机器鱼自主探索的轨迹示意图之三;
图7是本发明提供的仿生机器鱼自主探索的轨迹示意图之四;
图8是本发明提供的仿生机器鱼自主探索的轨迹示意图之五;
图9是图8对应的网格示意图;
图10是本发明提供的水下探索策略模型的训练方法的逻辑结构示意图;
图11是本发明提供的仿生机器鱼水下探索方法的流程示意图;
图12是本发明提供的水下探索策略模型的训练装置的结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
相关技术中,大部分水下自主导航方法通常包含有定位算法以及配套的测量系统。根据定位方法的不同,主要分为两类:全局信息制导和局部视觉定位。在一定的区域中,通过准确的全局定位信息引导,可以对仿生机器鱼实现高精度的路径跟踪。然而在野外深水环境中,仿生机器鱼难以通过视觉或者全球定位系统获取自身位置。而局部视觉定位可以采用水下主动实时定位和建图方法(Simultaneous Localization And Mapping,SLAM),具有一定的应用价值。对于仿生机器鱼来说,其独特的运动模态和作业环境导致传统定位方法在导航中难以发挥作用。因此,近年来,研究者开始着力研究基于深度强化学习的机器鱼水下导航方法。
由于深度强化学习在仿生机器鱼的路径规划和运动优化等方面具有一定的可行性和优势,相关技术中通过训练深度强化学习控制器,并研究基于学习的控制方法能解决仿生机器鱼的运动问题,但深度强化学习在自主探索和导航方向却鲜有突破。
本发明实施例通过采用深度强化学习方式对仿生机器鱼在水下环境中的交互进行学习,以提高学习能力,进而实现仿生机器鱼的探索效率与探索稳定性的提升。
在对本发明实施例进行说明之前,首先对本发明所涉及的仿生机器鱼进行说明。
本发明的仿生机器鱼通过模仿柠檬鲨的外形和运动机理,具备高机动性和低扰动等特性。仿生机器鱼可以作为水下作业平台以实现水下勘探、搜救等应用。
为实现仿生机器鱼的运动功能,仿生机器鱼的尾部结构可以为链式结构的铝合金骨架构成,是机器鲨鱼的主要推进机构,用于实现BCF(body and/or caudal fin,鱼体尾鳍推进式)运动模式。胸鳍装置用于产生俯仰力矩,实现机器鲨鱼的三维运动。
如图1所示,仿生机器鱼110安装有多种传感器,多种传感器能提高仿生机器鱼110的水下感知能力。多个传感器包括一个可实现偏航转动的单目摄像头111、四个单线激光雷达112以及一个深度传感器113。
单目摄像头111可以安装于仿生机器鱼110头部的中间位置,单目摄像头可实时采集图像,并通过无线传输模块发送到上位机。仿生机器鱼110中可以设置云台与单目摄像头111进行连接,云台能调整单目摄像头的姿态以实现对不同方位环境信息的采集,且能保持单目摄像头工作时的稳定性。
四个单线激光雷达112可以分别安装于仿生机器鱼110的前侧、左右两侧以及底部,用于检测前、左、右、底四个方向的最近障碍物或水底距离。深度传感器113可以安装于仿生机器鱼的顶部,用于实时检测仿生机器鱼距离水面的深度。
仿生机器鱼110内置有射频通讯模块140,用于与岸上系统130实时无线通讯,发送训练状态并接收动作指令。仿生机器鱼110内还设置有防水舵机,用于根据各个传感器采集的信息以及岸上系统130发送的指令控制仿生机器鱼的运动。
训练环境可以选取一个水域环境,并模仿现实水域中的障碍物人为布置一定的障碍物等,并通过设置全局摄像头120以用于采集训练阶段的全局图像信息。
例如,如图2所示,可以将训练环境布置在一个体积为5×4×1.5米的水池环境内,水池中静置四个大小不一的箱式障碍物,图中阴影部分用于表示障碍物,水池中心正上方2米处悬挂一个全局摄像头120。
当然,训练环境还可以按照其他方式进行布置,障碍物也可以选择其他类型,全局摄像头的数量也可以设置多个,此处对训练环境的布置方式不做限制。
下面结合图1-图13描述本发明的水下探索策略模型的训练方法和仿生机器鱼水下探索方法。
如图3所示,本发明的水下探索策略模型的训练方法包括步骤310、步骤320、步骤330以及步骤340。
步骤310、通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型。
需要说明的是,仿生机器鱼在水下环境进行自主探索时,在仿生机器鱼的每一步动作之前,探索策略模型能根据仿生机器鱼在当前环境下的状态信息决策出仿生机器鱼的动作信息。仿生机器鱼能根据探索策略模型决策出的动作信息生成动作指令来控制仿生机器鱼进行运动。
探索策略模型可以采用深度强化学习神经网络模型。仿生机器鱼在水下环境中与环境进行交互,探索策略模型可以在仿生机器鱼与环境的交互中不断学习,以提高学习能力,进而实现仿生机器鱼的探索效率与探索能力的提升。
在本实施方式中,探索策略模型采用深度确定性策略梯度网络模型(Deepdeterministic policy gradient,DDPG)。探索策略模型可以包括动作决策网络和动作价值网络,动作决策网络用于生成动作信息以控制仿生机器鱼进行运动,动作价值网络用于评价动作信息所带来的收益。
需要说明的是,由于探索策略模型在仿生机器鱼与环境的交互中不断学习,在对初始探索策略模型进行训练时,可以通过搭建的目标训练环境来供仿生机器鱼进行探索交互与学习。
需要说明的是,第一样本集包括仿生机器鱼的状态信息,状态信息基于仿生机器鱼在目标训练环境中自主探索时采集的目标信息确定。
仿生机器鱼在目标训练环境中通过各个传感器以及全局摄像头来获取目标信息,仿生机器鱼和岸上系统能根据采集到的目标信息确定出状态信息。
状态信息可以包括仿生机器鱼在当前位置与障碍物之间的位置关系信息以及仿生机器鱼的姿态信息。仿生机器鱼的状态信息可以至少包括第一状态量、第二状态量、第三状态量以及第四状态量。
第一状态量df可以为仿生机器鱼与前向障碍物之间的距离,第一状态量可以根据仿生机器鱼前侧的单线激光雷达的实时反馈数据得到,第一状态量用于保障仿生机器鱼与前向的障碍物之间能保持一定的安全距离。
第二状态量dl可以为仿生机器鱼与左侧障碍物之间的距离,第二状态量可以根据仿生机器鱼左侧的单线激光雷达的实时反馈数据得到,第二状态量用于保障仿生机器鱼与左侧的障碍物之间能保持一定的安全距离。
第三状态量dr可以为仿生机器鱼与右侧障碍物之间的距离,第三状态量可以根据仿生机器鱼右侧的单线激光雷达的实时反馈数据得到,第三状态量用于保障仿生机器鱼与右侧的障碍物之间能保持一定的安全距离。
第四状态量ayaw可以为仿生机器鱼的姿态信息,第四状态量可以根据机器人内部惯性测量单元测量的机器鲨鱼绕惯性坐标系Z轴旋转角度得到,第四状态量用于描述仿生机器鱼的偏航角度值。
可以理解的是,用于表征仿生机器鱼同障碍物距离的第一状态量、第二状态量以及第三状态量均为正值,可以将第一状态量、第二状态量以及第三状态量进行归一化处理。
归一化处理后的状态量可以表示为:
Figure BDA0003471281830000091
其中,di用于表征归一化处理后的状态量,di0用于表征归一化处理前的状态量,归一化处理后的状态量被设置在[-1,1]的范围内。归一化处理后的状态量能够方便探索策略模型基于状态信息进行学习训练。
仿生机器鱼在目标训练环境中通过多个传感器采集信息并将采集到的信息通过射频通讯模块发送至岸上系统,岸上系统根据接收的全局视觉信息以及仿生机器鱼的本地感知信息,将仿生机器鱼的本地感知信息处理为实时的状态信息后再发送至仿生机器鱼。
仿生机器鱼在训练环境中可以进行自主探索,在进行自主探索时,仿生机器鱼针对当前所处的环境得到当前的状态信息。根据当前的状态信息,初始探索策略模型能决策出与当前状态信息对应的动作信息。仿生机器鱼再根据动作信息产生一步运动并处于新的环境中,此时仿生机器鱼的状态信息也发生了变化。
需要说明的是,仿生机器鱼通过中心模式发生器(Central Pattern Generator,CPG)模型将动作信息转化为控制运动的动作指令。CPG模型中的频率ω能影响仿生机器鱼BCF运动模式的尾部摆动频率,CPG模型中的偏置β则负责控制仿生机器鱼的转向运动动作。在本实施方式中,可以设置频率ω∈[0,1]和偏置β∈[-20,20],以满足仿生机器鱼的运动性能要求。
参照图4-图7,图4-图7示出了几种在不同障碍物大小和布置方式下仿生机器鱼在进行自主探索运动的轨迹示意图。图中的阴影部分代表障碍物,曲线表示轨迹,曲线上的箭头表示仿生机器鱼的运动方向。
仿生机器鱼在目标训练环境中通过自主探索,根据每一步动作的动作信息能对初始探索策略模型的参数进行不断更新,在训练结束后最终得到第一探索策略模型。
步骤320、从第一样本集中,确定出第一状态信息,并获得与第一状态信息对应的动作信息;
在步骤310中,可以根据初始探索策略模型的动作策略网络得到当前状态信息所对应的动作信息,并通过CPG模型产生对应的动作指令以控制仿生机器鱼进行运动。
仿生机器鱼在训练环境中的每一步动作的过程都会产生相应的数据以供初始探索策略模型来进行学习以更新参数。该数据包括此步动作所对应的动作信息、此步动作之前的状态信息以及此步动作之后到达新位置后新的状态信息,此步动作所对应的动作信息与此步动作之前的状态信息相对应。
探索策略模型的动作策略网络根据此步动作之前的状态信息得到此步动作所对应的动作信息。仿生机器鱼在进行水下探索过程中的每一步都对应有状态信息以及与状态信息对应的动作信息。在训练仿生机器鱼进行水下探索过程中,将所有的状态信息保存于第一样本集中,同时将第一样本集中所有状态信息所对应的动作信息也保存于第一样本集中。
可以理解的是,在训练仿生机器鱼在水下进行探索的过程中,每当仿生机器鱼完成一条轨迹可以将该训练过程作为一个训练回合。在多个训练回合结束后,可以对仿生机器鱼执行多组无噪声的探索策略模型测试。
测试的环境可以采用目标训练环境的搭建方式进行设置,但测试的环境中障碍物的布置方式等不同于用于训练的目标训练环境、第一目标区域以及第二目标区域。通过对测试的环境进行区分设置,使得测试环境中的状态信息不同于训练环境,进而提高测试结果的有效性,进而保证模型的鲁棒性。
测试的过程可以根据多个回合中每一步探索的贡献程度确定出较优的一步动作,进而得到该动作所对应的第一动作信息和与第一动作信息所对应的第一状态信息。
步骤330、基于第一状态信息和与第一状态信息对应的第一动作信息,确定第二样本集。
在本实施方式中,将第一状态信息和与第一状态信息对应的第一动作信息均存放于第二样本集中,第二样本集中的状态信息与动作信息对应较优的探索动作。
第二样本集中的状态信息与动作信息所对应的较优的探索动作可以是仿生机器鱼在自主探索过程中的动作,也可以是基于专家控制指令的动作。在一定的状态信息下,专家控制指令对应的动作信息能作用于CPG模型使仿生机器鱼产生的动作能带来最大的奖励值。
步骤340、以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型。
由于在线水下探索的训练过程中,很难保证仿生机器鱼能在随机训练中长时间保留历史最优的探索策略模型参数,从而容易陷入局部最优点。除此之外,高探索效率这一目的与强化学习学习视频游戏中的稀疏奖励非常相似,即仿生机器鱼需要完成若干个较低奖励值的动作后,才能有机会取得高奖励值。
在本实施方式中,第二样本集中包括仿生机器鱼在自主探索的过程中自主学习得到的较优探索动作所对应的状态信息与动作信息。
在离线环境进行训练的过程中,将奖励值较低的动作信息所对应的状态信息替换为较优的第一状态信息,并将与第一状态信息对应的动作信息作为标签对第一探索策略模型进行巩固训练,能够降低在线自主探索学习过程中奖励值较低的动作对探索策略模型的影响。
在一些实施例中,以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型,包括:在连续确定的第一状态信息的数量超过目标值的情况下,训练第一探索策略模型。
可以理解的是,在仿生机器鱼进行自主探索的过程中,每进行一个训练回合的探索,可以得到多组动作信息与状态信息。在每一回合可以根据每一步探索的贡献程度确定出该回合中较优的一步动作,进而得到该动作所对应的第一动作信息和与第一动作信息所对应的第一状态信息。
在训练回合数达到一定的数量后,例如每当训练回合数达到50回合后,即仿生机器鱼运动完成了50条自主探索轨迹,第二样本集中连续确定的第一状态信息和第一动作信息的数量超过了目标值。
在此情况下,以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签对第一探索策略模型进行训练。在此次训练后,仿生机器鱼继续进行自主探索。
在本实施方式中,通过按照一定的频率对第一探索策略模型进行离线训练,能提升模型的巩固学习效果。
根据本发明实施例的水下探索策略模型的训练方法,通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练,进而得到训练后的第二探索策略模型,能降低较为失败的动作对模型的影响,避免模型的参数陷入局部最优,从而增强了模型在实际环境中运用的鲁棒性与稳定性。
在一些实施例中,第二样本集还包括第二状态信息和与第二状态信息对应的第二动作信息,第二状态信息和第二动作信息为通过人工控制仿生机器鱼探索第一目标区域确定的。
需要说明的是,在仿生机器鱼进行自主探索的过程中,第一目标区域可以是狭窄的通道、障碍物较多的区域或者存在较大弯道的区域等,当然,第一目标区域还可以为其他区域,此处不做限制。在第一目标区域,仿生机器鱼容易做出较为失败的探索动作,不利于模型的学习。
仿生机器鱼在第一目标区域进行探索的过程中,由于第一目标区域的环境较为复杂,仿生机器鱼在做出每一步动作前在对环境中的目标信息进行采集时,采集到的目标信息无法准确得出状态信息,进而探索策略模型也无法决策出合适的动作信息。
探索策略模型在仿生机器鱼于第一目标区域进行探索的阶段无法进行有效的学习。在第一目标区域,通过专家人工对仿生机器鱼的动作进行控制来进行探索,能得到针对当前环境较优的探索动作。
第二状态信息和第二动作信息为通过专家人工控制仿生机器鱼探索第一目标区域确定,专家人工控制仿生机器鱼的动作能更好地帮助仿生机器鱼对该区域进行探索。
由于探索策略模型的奖励值所对应的奖励目标与实际所要实现的最佳探索目标存在一定的差异,因此根据该过程中专家人工控制的较优的探索动作所对应的第二状态信息和第二动作信息更加符合模型的学习目标。
在此情况下,第二样本集还包括第二状态信息和与第二状态信息对应的第二动作信息。通过以第二样本集中的第二状态信息为样本,以与第二状态信息对应的第二动作信息为标签对第一探索策略模型进行离线训练。在此次训练后,仿生机器鱼继续进行自主探索。
根据本发明实施例的水下探索策略模型的训练方法,在对第一探索策略模型进行离线训练时,通过增加基于专家人工控制获取的数据作为样本和标签来进行训练,能提高模型在特定环境中的探索决策能力。
在一些实施例中,在通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型之前,本发明实施例的水下探索策略模型的训练方法还包括:获取第三样本集,第三样本集还包括第三状态信息和与第三状态信息对应的第三动作信息,第三状态信息和第三动作信息为通过人工控制仿生机器鱼探索第二目标区域确定的。
第二目标区域用于获取足够样本数量的第三状态信息和第三状态信息所对应的第三动作信息。第二目标区域可以是本申请实施例中所搭建的目标训练环境,也可以是其他模拟水下环境的区域,当然,第二目标区域也可以是一定范围内的真实水下环境区域,此处对第二目标区域的形式不做限制。
在第二目标区域,通过专家人工对仿生机器鱼的动作进行控制来进行探索,能得到针对当前环境较优的探索动作。
第三状态信息和第三动作信息为通过专家人工控制仿生机器鱼探索第二目标区域确定。根据该过程中较优的探索动作,可以获取一定数量较优的探索动作所对应的第三动作信息和第三状态信息。
例如可以通过专家人工控制仿生机器鱼在第二目标区域中完成20分钟的探索运动,或者,通过专家人工控制仿生机器鱼在第二目标区域中完成一定长度的运动轨迹,并保存超过2000条用于强化学习训练的动作样本信息,动作样本信息包括第三动作信息和第三状态信息。
专家人工控制的较优的探索动作所对应的第三状态信息和第三动作信息更加符合模型的学习目标,使得模型能具有一定的探索动作决策能力。
在本实施方式中,以第三状态信息为样本,以第三动作信息为标签,训练探索策略模型,得到初始探索策略模型,使得初始探索策略模型的动作决策网络能具有一定的探索能力。
动作决策网络可以包含三层网络结构,中间层可以包含有64个神经元节点,并以0.0001的学习速率更新该网络5*104步,通过上述的训练方式可以得到初始动作决策网络。
根据本发明实施例的水下探索策略模型的训练方法,在仿生机器鱼在目标训练环境中进行自主探索之前,通过对探索策略模型进行随机初始化,使得动作决策网络能具有一定的决策能力,进而保证了在目标训练环境中进行自主探索时能获取具有一定数量有效样本的第一样本集,提升了训练早期仿生机器鱼的探索效率,降低了时间和计算成本的损耗。
在一些实施例中,通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,包括:根据预先为初始探索策略模型进行动作决策所配置的奖励函数,计算初始探索策略模型决策出的动作信息对应的奖励信息,奖励信息包含具体的奖励值。
初始探索策略模型能根据当前的动作价值网络来对动作策略网络决策的动作信息实时反馈奖励信息。
奖励信息由奖励函数确定,奖励函数由多个子函数确定,奖励函数由以下公式确定:
R=ro+rd+ra+rs+rsp
其中,R表示奖励函数,ro表示碰撞损失子函数,rd表示有效路径长度子函数,ra表示有效探索范围子函数,rs表示探索路径平滑性子函数,rsp表示速度损失子函数。
在探索环境中存在较多的障碍物的情况下,仿生机器鱼通过前方、左侧和右侧的单线激光雷达判断是否有可能发生碰撞。发明人发现在仿真测试中,距离信息通常是绝对准确的,而在实际应用中的实测结果滞后,且不完全可信。
当实测数据在距离障碍物200cm内,单线激光雷达的测试数据是持续稳定的。当距离超过200cm时,在光线的影响下,单线激光雷达的测试数据结果往往会不断跳变。
在一些实施例中,碰撞损失子函数ro可以在仿生机器鱼过于靠近障碍物时进行惩罚,碰撞损失子函数可以表示为:
Figure BDA0003471281830000161
其中,P=-50表示对仿生机器鱼与障碍物实际发生的碰撞有额外的惩罚,w是距离惩罚系数,wf和wl,r表示对不同方向障碍物的容忍程度,wf可以取值0.7,wl,r可以取值0.15,其中的f、l和r分别代表前侧、左侧和右侧;Ωi是计算得到的初始惩罚值,D可以取值200cm。
在本实施方式中,通过设计反比函数来指导仿生机器鱼不要太靠近障碍物,能降低仿生机器鱼与障碍物发生碰撞的概率。
在一些实施例中,仿生机器鱼很容易因为大量的碰撞而受到惩罚,最终导致收敛到零输出。这种消极的运动策略可以在训练的开始阶段通过长航程奖励来消除。
如图8和图9所示,图中的阴影区域代表障碍物。可以将全局视觉系统中的水域划分为一个8×10的网格图,并定义为一个相同大小的探索禁忌表
Figure BDA0003471281830000162
该表格元素初始化为0。当机器鲨鱼探索进入一个新的网格时,
Figure BDA0003471281830000163
中的相应元素被设置为1。此外,每个新网格都会增加一个额外的离散奖励1,从而进一步强调探索效率提升带来的梯度变化。
探索效率可以通过探索的有效路径长度和有效探索范围来进行衡量,图中的曲线代表有效探索路径,图中的网格A代表有效的探索范围。
有效路径长度子函数可以表示为:
Figure BDA0003471281830000164
其中,wd为探索效率权重,wd
Figure BDA0003471281830000165
所有元素和的对数,LΔt为在目标时间段内的探索路径长度。
有效探索范围子函数可以表示为:
Figure BDA0003471281830000171
其中,
Figure BDA0003471281830000172
表示当前时刻的探索禁忌表,用于表征当前时刻的探索范围;
Figure BDA0003471281830000173
表示上一时刻的探索禁忌表,用于表征上一时刻的探索范围。
在本实施方式中,通过引入探索效率对应的奖励函数,能避免仿生机器鱼因为简单的距离奖励而陷入毫无意义的绕圈运动。
需要说明的是,虽然仿生机器鲨鱼具有高机动性,可以适应CPG模型参数的快速变化,但大角度的转向仍然会对尾部的舵机齿轮造成损坏。此外,一些无意义的绕圈运动也不利于有效的探索。
探索路径平滑性子函数rs可以针对轨迹平滑度的损失对仿生机器鱼执行动作信息进行奖励,以削弱动作指令控制律的无效震荡。
探索路径平滑性子函数可以表示为:
rs=ws*|ψtt-1|,
其中,其中ψt为t时刻的偏航角,ws的设计能平衡该损失项对总奖励的影响。
在通常情况下,太快的游动速度使仿生机器鱼出现较多碰撞,太慢的速度会导致较低的探索奖励。因此,在根据专家经验将其游动速度限制在0.05m/s至0.35m/s之间时,速度损失子函数rsp允许仿生机器鱼在低速下避开障碍物,但严厉惩罚静止不动的情况,进而在减少碰撞的情况下提高探索效率。
速度损失子函数可以表示为:
Figure BDA0003471281830000174
可以理解的是,初始探索策略模型能根据仿生机器鱼执行动作信息的前后状态信息以及奖励信息,更新初始探索策略模型的参数,得到第一探索策略模型。
仿生机器鱼在自主探索的过程中,初始探索策略模型可以根据奖励函数针对每次决策出的动作信息的奖励信息来进行自主学习。仿生机器鱼在水下自主探索进行初始探索策略模型的学习可以看作马尔科夫决策过程(Markov Decision Process,MDP)。
初始探索策略模型的动作决策网络根据当前的状态信息si决策出动作信息ai,仿生机器鱼根据动作信息ai做出一步动作,此时仿生机器鱼处于新的环境中,新的环境对应有下一状态信息si+1。仿生机器鱼根据动作决策网络每决策一次做出一步动作后,保存最新的状态信息、动作信息以及奖励信息到数据库中。
初始探索策略模型的动作价值网络用来描述仿生机器鱼的动作价值函数Q(s,a|θQ),其中θQ代表该网络参数。
动作价值网络通过迭代最小化均方误差实现更新,首先确定出动作价值网络的损失函数:
yi=ri+γQ'(si+1,μ′(si+1μ′)|θQ′),
Figure BDA0003471281830000181
,其中,γ是折扣因子,在本实施方式中γ=0.95,yi看做标签,ri代表在状态信息si下根据奖励函数R得到的奖励信息,Q'(si+1,μ′(si+1μ′)|θQ′)为动作价值网络在状态si+1下执行动作信息μ′(si+1μ′)得到的目标价值,μ′(si+1μ′)为动作决策网络在状态信息si+1下输出的动作信息;Q(si,aiQ)为动作决策网络在状态信息si下执行动作信息ai得到的目标价值,L为动作价值网络的损失函数,N为状态信息si样本的数量。
在得到损失函数后,通过计算动作价值网络的损失函数L针对动作价值网络的网络参数θQ的梯度从而实现对动作价值网络的参数的更新。
动作决策网络通过蒙特卡洛方法从数据库重采样状态信息、动作信息以及奖励信息,通过计算动作价值网络的损失函数并计算策略梯度
Figure BDA0003471281830000191
再采用随机梯度下降的方法更新动作策略网络实现参数的更新。
在本实施方式中,如图10所示,通过专家手动控制的动作样本对探索策略模型进行初始化后,仿生机器鱼的第一探索策略模型通过在线自主探索进行训练。
图4-图7示出的四条轨迹可以视为四个训练回合。在不同的训练回合,可以通过改变初始状态仿生机器鱼的出发位置来实现对状态信息的更改。在每完成一定数量回合如100回合的训练后,还可以更新在线训练场景内的障碍箱的位置,进而丰富仿生机器鱼在训练过程中所能采集到的状态信息的样本数量,进而提高仿生机器鱼的学习能力和学习效果。
在单个训练回合中,遵循摘要附图中的训练流程,机器鲨鱼每间隔一个时间步长,接收一个新的动作指令at,如下:
Figure BDA0003471281830000192
其中,
Figure BDA0003471281830000193
代表服从正态分布的随机噪声,μ(stμ)为动作决策网络在状态信息si下输出的动作信息。
每个训练回合从水池的随机位置开始运动,并将每个回合的状态信息、动作信息以及奖励信息存放于第一样本集,进而对第一样本集不断更新。
每当训练的回合数达到一定的数量后,在每一回合中确定出的较优的一步动作,所对应的第一动作信息和与第一动作信息所对应的第一状态信息也达到一定数量,即离线存储的第二样本集中具有一定数量的样本数量。在不断在线训练的过程中,第二样本集中的样本数量不断增加,进而也实现了更新。
每当在线训练一定数量的回合数后,以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签对第一探索策略模型进行巩固模仿训练,能提升模型的巩固学习效果。
根据本申请实施例的水下探索策略模型的训练方法,通过基于壁撞原则、鼓励探索原则、平滑路径原则以及速度适中原则来设计奖励函数,能保证仿生机器鱼的初始探索策略模型进行有效的参数更新并保存足够数量的有效训练样本,进而方便后续对模型进行有监督的巩固学习。
参照图11,本发明实施例还提供一种仿生机器鱼水下探索方法,包括步骤1110、步骤1120和步骤1130。
步骤1110、获取当前位置的目标状态信息。
目标状态信息为仿生机器鱼当前所在位置的状态信息,目标状态信息有仿生机器鱼的多个传感器以及全局摄像头采集的全局图像信息确定得到。
步骤1120、将目标状态信息输入至上述水下探索策略模型的训练方法训练得到的第二探索策略模型,得到与目标状态信息对应的目标动作信息。
可以理解的是,第二探索策略模型通过第二样本集中的数据巩固学习强化得到,第二探索策略模型的动作决策网络针对目标状态信息输出目标动作信息。
步骤1130、基于目标动作信息,控制机器鱼进行运动。
根据目标动作信息,仿生机器鱼的CPG模型能生成对应的动作指令来控制仿生机器鱼进行运动以实现对水下环境的探索。
根据本申请实施例的仿生机器鱼水下探索方法,通过利用经过巩固强化学习的第二探索策略模型对仿生机器鱼的动作进行决策,能提高仿生机器鱼对发造水下环境的探索能力以及提高第二探索策略模型的鲁棒性与稳定性。
下面对本发明提供的水下探索策略模型的训练装置进行描述,下文描述的水下探索策略模型的训练装置与上文描述的水下探索策略模型的训练方法可相互对应参照。
如图12所示,水下探索策略模型的训练装置包括第一训练模块1210、第一处理模块1220、第二处理模块1230和第二训练模块1240。
第一训练模块1210用于通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,第一样本集包括仿生机器鱼的状态信息,状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定;
第一处理模块1220用于从第一样本集中,确定出第一状态信息,并获得与第一状态信息对应的第一动作信息;
第二处理模块1230用于基于第一状态信息和与第一状态信息对应的第一动作信息,确定第二样本集;
第二训练模块1240用于以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型。
根据本申请实施例的水下探索策略模型的训练装置,通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练,进而得到训练后的第二探索策略模型,能降低较为失败的动作对模型的影响,避免模型的参数陷入局部最优,从而增强了模型在实际环境中运用的鲁棒性与稳定性。
在一些实施例中,第二样本集还包括第二状态信息和与第二状态信息对应的第二动作信息,第二状态信息和第二动作信息为通过人工控制仿生机器鱼探索第一目标区域确定的。
在一些实施例中,第二训练模块1240还用于在连续确定的第一状态信息的数量超过目标值的情况下,训练第一探索策略模型。
在一些实施例中,水下探索策略模型的训练装置还包括第三处理模块和第三训练模块,第三处理模块用于获取第三样本集,第三样本集还包括第三状态信息和与第三状态信息对应的第三动作信息,第三状态信息和第三动作信息为通过人工控制仿生机器鱼探索第二目标区域确定的;第三训练模块用于以第三状态信息为样本,以第三动作信息为标签,训练探索策略模型,得到初始探索策略模型。
在一些实施例中,第一训练模块1210还用于根据预先为初始探索策略模型进行动作决策所配置的奖励函数,计算初始探索策略模型决策出的动作信息对应的奖励信息;第一训练模块用于基于仿生机器鱼执行动作信息的前后状态信息以及奖励信息,更新初始探索策略模型的参数,得到第一探索策略模型。
在一些实施例中,奖励函数由多个子函数确定,奖励函数由以下公式确定:
R=ro+rd+ra+rs+rsp
其中,R表示奖励函数,ro表示碰撞损失子函数,rd表示有效路径长度子函数,ra表示有效探索范围子函数,rs表示探索路径平滑性子函数,rsp表示速度损失子函数。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1240,其中,处理器1310,通信接口1320,存储器1330通过通信总线1240完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行水下探索策略模型的训练方法,该方法包括:通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,第一样本集包括仿生机器鱼的状态信息,状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定;从第一样本集中,确定出第一状态信息,并获得与第一状态信息对应的第一动作信息;基于第一状态信息和与第一状态信息对应的第一动作信息,确定第二样本集;以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的水下探索策略模型的训练方法,该方法包括:通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,第一样本集包括仿生机器鱼的状态信息,状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定;从第一样本集中,确定出第一状态信息,并获得与第一状态信息对应的第一动作信息;基于第一状态信息和与第一状态信息对应的第一动作信息,确定第二样本集;以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的水下探索策略模型的训练方法,该方法包括:通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,第一样本集包括仿生机器鱼的状态信息,状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定;从第一样本集中,确定出第一状态信息,并获得与第一状态信息对应的第一动作信息;基于第一状态信息和与第一状态信息对应的第一动作信息,确定第二样本集;以第二样本集中的第一状态信息为样本,以与第一状态信息对应的第一动作信息为标签,训练第一探索策略模型,得到第二探索策略模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种水下探索策略模型的训练方法,其特征在于,包括:
通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,所述第一样本集包括仿生机器鱼的状态信息,所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定;
从所述第一样本集中,确定出第一状态信息,并获得与所述第一状态信息对应的第一动作信息;
基于所述第一状态信息和与所述第一状态信息对应的第一动作信息,确定第二样本集;
以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型。
2.根据权利要求1所述的水下探索策略模型的训练方法,其特征在于,所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息,所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。
3.根据权利要求1所述的水下探索策略模型的训练方法,其特征在于,所述以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型,包括:
在连续确定的所述第一状态信息的数量超过目标值的情况下,训练所述第一探索策略模型。
4.根据权利要求1-3中任一项所述的水下探索策略模型的训练方法,其特征在于,在所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型之前,所述方法还包括:
获取第三样本集,所述第三样本集还包括第三状态信息和与所述第三状态信息对应的第三动作信息,所述第三状态信息和所述第三动作信息为通过人工控制所述仿生机器鱼探索第二目标区域确定的;
以所述第三状态信息为样本,以所述第三动作信息为标签,训练探索策略模型,得到所述初始探索策略模型。
5.根据权利要求1-3中任一项所述的水下探索策略模型的训练方法,其特征在于,所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,包括:
根据预先为所述初始探索策略模型进行动作决策所配置的奖励函数,计算所述初始探索策略模型决策出的动作信息对应的奖励信息;
基于所述仿生机器鱼执行所述动作信息的前后状态信息以及所述奖励信息,更新所述初始探索策略模型的参数,得到第一探索策略模型。
6.根据权利要求5所述的水下探索策略模型的训练方法,其特征在于,所述奖励函数由多个子函数确定,所述奖励函数由以下公式确定:
R=ro+rd+ra+rs+rsp
其中,R表示奖励函数,ro表示碰撞损失子函数,rd表示有效路径长度子函数,ra表示有效探索范围子函数,rs表示探索路径平滑性子函数,rsp表示速度损失子函数。
7.一种仿生机器鱼水下探索方法,其特征在于,包括:
获取当前位置的目标状态信息;
将所述目标状态信息输入至如权利要求1-6任一项所述的水下探索策略模型的训练方法训练得到的所述第二探索策略模型,得到与所述目标状态信息对应的目标动作信息;
基于所述目标动作信息,控制所述仿生机器鱼进行运动。
8.一种水下探索策略模型的训练装置,其特征在于,包括:
第一训练模块,用于通过第一样本集对仿生机器鱼的初始探索策略模型进行训练,得到第一探索策略模型,所述第一样本集包括仿生机器鱼的状态信息,所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定;
第一处理模块,用于从所述第一样本集中,确定出第一状态信息,并获得与所述第一状态信息对应的第一动作信息;
第二处理模块,用于基于所述第一状态信息和与所述第一状态信息对应的第一动作信息,确定第二样本集;
第二训练模块,用于以第二样本集中的所述第一状态信息为样本,以与所述第一状态信息对应的第一动作信息为标签,训练所述第一探索策略模型,得到第二探索策略模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述水下探索策略模型的训练方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述水下探索策略模型的训练方法的步骤。
CN202210043511.6A 2022-01-14 2022-01-14 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 Active CN114609925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043511.6A CN114609925B (zh) 2022-01-14 2022-01-14 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043511.6A CN114609925B (zh) 2022-01-14 2022-01-14 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Publications (2)

Publication Number Publication Date
CN114609925A true CN114609925A (zh) 2022-06-10
CN114609925B CN114609925B (zh) 2022-12-06

Family

ID=81857328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043511.6A Active CN114609925B (zh) 2022-01-14 2022-01-14 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Country Status (1)

Country Link
CN (1) CN114609925B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050304A (zh) * 2023-03-15 2023-05-02 重庆交通大学 一种智能鱼流场模拟控制方法、系统、设备及存储介质

Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034397A (zh) * 2018-08-10 2018-12-18 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备及存储介质
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110929431A (zh) * 2020-02-03 2020-03-27 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111144580A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于模仿学习的层级强化学习训练方法和装置
WO2020106908A1 (en) * 2018-11-21 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
US20200247402A1 (en) * 2019-01-31 2020-08-06 Honda Motor Co., Ltd. Reinforcement learning with scene decomposition for navigating complex environments
CN111578940A (zh) * 2020-04-24 2020-08-25 哈尔滨工业大学 一种基于跨传感器迁移学习的室内单目导航方法及系统
CN111708871A (zh) * 2020-05-27 2020-09-25 腾讯科技(深圳)有限公司 对话状态跟踪方法、装置及对话状态跟踪模型训练方法
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
WO2020249125A1 (zh) * 2019-06-14 2020-12-17 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和系统
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
WO2021029802A1 (en) * 2019-08-13 2021-02-18 Kaaberg Johard Leonard Improved machine learning for technical systems
CN112487817A (zh) * 2020-12-14 2021-03-12 北京明略软件系统有限公司 命名实体识别模型训练方法、样本标注方法、装置及设备
US20210094174A1 (en) * 2019-09-30 2021-04-01 Mitsubishi Electric Research Laboratories, Inc. System and Design of Derivative-free Model Learning for Robotic Systems
CN112904873A (zh) * 2021-01-26 2021-06-04 西湖大学 基于深度强化学习的仿生机器鱼控制方法、装置及存储介质
CN112990485A (zh) * 2021-04-21 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的知识策略选择方法与装置
CN113064422A (zh) * 2021-03-09 2021-07-02 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法
CN113299085A (zh) * 2021-06-11 2021-08-24 昭通亮风台信息科技有限公司 一种交通信号灯控制方法、设备及存储介质
US20210295099A1 (en) * 2019-05-21 2021-09-23 Tencent Technology (Shenzhen) Company Limited Model training method and apparatus, storage medium, and device
US20210339809A1 (en) * 2020-04-30 2021-11-04 Deere & Company Implement recognition lighting
CN113677485A (zh) * 2019-01-23 2021-11-19 谷歌有限责任公司 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN113919475A (zh) * 2021-12-16 2022-01-11 中国科学院自动化研究所 机器人技能学习的方法、装置、电子设备及存储介质

Patent Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034397A (zh) * 2018-08-10 2018-12-18 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备及存储介质
WO2020106908A1 (en) * 2018-11-21 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN113677485A (zh) * 2019-01-23 2021-11-19 谷歌有限责任公司 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
US20200247402A1 (en) * 2019-01-31 2020-08-06 Honda Motor Co., Ltd. Reinforcement learning with scene decomposition for navigating complex environments
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
US20210295099A1 (en) * 2019-05-21 2021-09-23 Tencent Technology (Shenzhen) Company Limited Model training method and apparatus, storage medium, and device
WO2020249125A1 (zh) * 2019-06-14 2020-12-17 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和系统
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
WO2021029802A1 (en) * 2019-08-13 2021-02-18 Kaaberg Johard Leonard Improved machine learning for technical systems
US20210094174A1 (en) * 2019-09-30 2021-04-01 Mitsubishi Electric Research Laboratories, Inc. System and Design of Derivative-free Model Learning for Robotic Systems
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111144580A (zh) * 2019-12-31 2020-05-12 中国电子科技集团公司信息科学研究院 一种基于模仿学习的层级强化学习训练方法和装置
CN110929431A (zh) * 2020-02-03 2020-03-27 北京三快在线科技有限公司 一种车辆行驶决策模型的训练方法及装置
CN111578940A (zh) * 2020-04-24 2020-08-25 哈尔滨工业大学 一种基于跨传感器迁移学习的室内单目导航方法及系统
US20210339809A1 (en) * 2020-04-30 2021-11-04 Deere & Company Implement recognition lighting
CN111708871A (zh) * 2020-05-27 2020-09-25 腾讯科技(深圳)有限公司 对话状态跟踪方法、装置及对话状态跟踪模型训练方法
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN112487817A (zh) * 2020-12-14 2021-03-12 北京明略软件系统有限公司 命名实体识别模型训练方法、样本标注方法、装置及设备
CN112904873A (zh) * 2021-01-26 2021-06-04 西湖大学 基于深度强化学习的仿生机器鱼控制方法、装置及存储介质
CN113064422A (zh) * 2021-03-09 2021-07-02 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN112990485A (zh) * 2021-04-21 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的知识策略选择方法与装置
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法
CN113299085A (zh) * 2021-06-11 2021-08-24 昭通亮风台信息科技有限公司 一种交通信号灯控制方法、设备及存储介质
CN113919475A (zh) * 2021-12-16 2022-01-11 中国科学院自动化研究所 机器人技能学习的方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUNZHI YU: "Underwater_Target_Tracking_Control_of_an_Untethered_Robotic_Fish_With_a_Camera_Stabilizer", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS ( VOLUME: 51, ISSUE: 10, OCTOBER 2021)》 *
XUAN-TUNG TRUONG: "Toward_Socially_Aware_Robot_Navigation_in_Dynamic_and_Crowded_Environments_A_Proactive_Social_Motion_Model", 《IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING ( VOLUME: 14, ISSUE: 4, OCTOBER 2017)》 *
王健: "结合神经网络和Q(λ)-learning的路径规划方法", 《自动化与仪表》 *
胡磊: "基于启发神经网络强化学习的AUV路径规划方法研究", 《中国优秀硕士学位论文库 工程科技Ⅱ辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050304A (zh) * 2023-03-15 2023-05-02 重庆交通大学 一种智能鱼流场模拟控制方法、系统、设备及存储介质
CN116050304B (zh) * 2023-03-15 2024-03-26 重庆交通大学 一种智能鱼流场模拟控制方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN114609925B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN109625333B (zh) 一种基于深度增强学习的空间非合作目标捕获方法
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
CN113033119B (zh) 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Stevšić et al. Sample efficient learning of path following and obstacle avoidance behavior for quadrotors
CN113534668B (zh) 基于最大熵的演员-评论家框架的auv运动规划方法
Liu et al. ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles
CN111506063A (zh) 一种基于分层强化学习框架的移动机器人无图导航方法
Yan et al. Real-world learning control for autonomous exploration of a biomimetic robotic shark
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Song et al. Surface path tracking method of autonomous surface underwater vehicle based on deep reinforcement learning
CN117784812A (zh) 基于进化引导深度强化学习的无人机自主飞行决策方法
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
CN116859979A (zh) 一种无人机的运动路径规划方法、无人机及存储介质
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN114326826B (zh) 多无人机队形变换方法及系统
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav
Chen et al. Imitation learning from imperfect demonstrations for AUV path tracking and obstacle avoidance
CN115291616B (zh) 一种基于近端策略优化算法的auv动态避障方法
Guan Self-inspection method of unmanned aerial vehicles in power plants using deep q-network reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant