CN114609925A

CN114609925A - 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Info

Publication number: CN114609925A
Application number: CN202210043511.6A
Authority: CN
Inventors: 吴正兴; 喻俊志; 闫帅铮; 王健; 黄雨培; 谭民
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-06-10
Anticipated expiration: 2042-01-14
Also published as: CN114609925B

Abstract

本发明提供一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法，本发明的水下探索策略模型的训练方法包括：通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型；从所述第一样本集中确定第二样本集；以第二样本集中的所述第一状态信息为样本，以与所述第一状态信息对应的第一动作信息为标签，训练所述第一探索策略模型，得到第二探索策略模型。本发明的水下探索策略模型的训练方法通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练，能降低较为失败的动作对模型的影响，避免模型的参数陷入局部最优，从而增强了模型在实际环境中运用的鲁棒性与稳定性。

Description

水下探索策略模型的训练方法及仿生机器鱼水下探索方法

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法。

背景技术

近年来，仿生水下机器鱼凭借其特有的性能优势，受到了广泛关注。通过模仿鱼的外形和运动机理，仿生机器鱼具备高机动性和低扰动等特性，有潜力成为一个良好的水下作业平台。除了运动优势外，高效、稳定的自主探索导航算法也是仿生机器鱼实现水下勘探、搜救等应用的关键环节。

相关技术中通过仿真训练学习模型，再将学习模型应用于真实环境，向真实应用环境中的控制引入了仿真训练中的差异，从而导致控制器鲁棒性较差。

发明内容

本发明提供一种水下探索策略模型的训练方法及仿生机器鱼水下探索方法，用以解决现有技术中控制器鲁棒性较差的缺陷，增强了仿生机器鱼的模型在实际环境中运用的鲁棒性与稳定性。

本发明提供一种水下探索策略模型的训练方法，包括：

通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，所述第一样本集包括仿生机器鱼的状态信息，所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定；

从所述第一样本集中，确定出第一状态信息，并获得与所述第一状态信息对应的第一动作信息；

基于所述第一状态信息和与所述第一状态信息对应的第一动作信息，确定第二样本集；

以第二样本集中的所述第一状态信息为样本，以与所述第一状态信息对应的第一动作信息为标签，训练所述第一探索策略模型，得到第二探索策略模型。

根据本发明提供的一种水下探索策略模型的训练方法，所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息，所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。

根据本发明提供的一种水下探索策略模型的训练方法，所述以第二样本集中的所述第一状态信息为样本，以与所述第一状态信息对应的第一动作信息为标签，训练所述第一探索策略模型，得到第二探索策略模型，包括：

在连续确定的所述第一状态信息的数量超过目标值的情况下，训练所述第一探索策略模型。

根据本发明提供的一种水下探索策略模型的训练方法，在所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型之前，所述方法还包括：

获取第三样本集，所述第三样本集还包括第三状态信息和与所述第三状态信息对应的第三动作信息，所述第三状态信息和所述第三动作信息为通过人工控制所述仿生机器鱼探索第二目标区域确定的；

以所述第三状态信息为样本，以所述第三动作信息为标签，训练探索策略模型，得到所述初始探索策略模型。

根据本发明提供的一种水下探索策略模型的训练方法，所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，包括：

根据预先为所述初始探索策略模型进行动作决策所配置的奖励函数，计算所述初始探索策略模型决策出的动作信息对应的奖励信息；

基于所述仿生机器鱼执行所述动作信息的前后状态信息以及所述奖励信息，更新所述初始探索策略模型的参数，得到第一探索策略模型。

根据本发明提供的一种水下探索策略模型的训练方法，所述奖励函数由多个子函数确定，所述奖励函数由以下公式确定：

R＝r_o+r_d+r_a+r_s+r_sp，

其中，R表示奖励函数，r_o表示碰撞损失子函数，r_d表示有效路径长度子函数，r_a表示有效探索范围子函数，r_s表示探索路径平滑性子函数，r_sp表示速度损失子函数。

本发明还提供一种仿生机器鱼水下探索方法，包括：

获取当前位置的目标状态信息；

将所述状态信息输入至如权利要求1-6任一项所述的水下探索策略模型的训练方法训练得到的所述第二探索策略模型，得到与所述目标状态信息对应的目标动作信息；

基于所述目标动作信息，控制所述仿生机器鱼进行运动。

本发明还提供一种水下探索策略模型的训练装置，包括：

第一训练模块，用于通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，所述第一样本集包括仿生机器鱼的状态信息，所述状态信息基于所述仿生机器鱼在目标训练环境中采集的目标信息确定；

第一处理模块，用于从所述第一样本集中，确定出第一状态信息，并获得与所述第一状态信息对应的第一动作信息；

第二处理模块，用于基于所述第一状态信息和与所述第一状态信息对应的第一动作信息，确定第二样本集；

第二训练模块，用于以第二样本集中的所述第一状态信息为样本，以与所述第一状态信息对应的第一动作信息为标签，训练所述第一探索策略模型，得到第二探索策略模型。

根据本发明提供的一种水下探索策略模型的训练装置，所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息，所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。

根据本发明提供的一种水下探索策略模型的训练装置，所述第二训练模块还用于在连续确定的所述第一状态信息的数量超过目标值的情况下，训练所述第一探索策略模型。

根据本发明提供的一种水下探索策略模型的训练装置，还包括：

第三处理模块，用于获取第三样本集，所述第三样本集还包括第三状态信息和与所述第三状态信息对应的第三动作信息，所述第三状态信息和所述第三动作信息为通过人工控制所述仿生机器鱼探索第二目标区域确定的；

第三训练模块，用于以所述第三状态信息为样本，以所述第三动作信息为标签，训练探索策略模型，得到所述初始探索策略模型。

根据本发明提供的一种水下探索策略模型的训练装置，所述第一训练模块还用于根据预先为所述初始探索策略模型进行动作决策所配置的奖励函数，计算所述初始探索策略模型决策出的动作信息对应的奖励信息；所述第一训练模块还用于基于所述仿生机器鱼执行所述动作信息的前后状态信息以及所述奖励信息，更新所述初始探索策略模型的参数，得到第一探索策略模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述水下探索策略模型的训练方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述水下探索策略模型的训练方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述水下探索策略模型的训练方法的步骤。

本发明提供的水下探索策略模型的训练方法及仿生机器鱼水下探索方法，通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练，进而得到训练后的第二探索策略模型，能降低较为失败的动作对模型的影响，避免模型的参数陷入局部最优，从而增强了模型在实际环境中运用的鲁棒性与稳定性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的仿生机器鱼的结构示意图；

图2是本发明提供的仿生机器鱼自主探索的训练环境示意图；

图3是本发明提供的水下探索策略模型的训练方法的流程示意图；

图4是本发明提供的仿生机器鱼自主探索的轨迹示意图之一；

图5是本发明提供的仿生机器鱼自主探索的轨迹示意图之二；

图6是本发明提供的仿生机器鱼自主探索的轨迹示意图之三；

图7是本发明提供的仿生机器鱼自主探索的轨迹示意图之四；

图8是本发明提供的仿生机器鱼自主探索的轨迹示意图之五；

图9是图8对应的网格示意图；

图10是本发明提供的水下探索策略模型的训练方法的逻辑结构示意图；

图11是本发明提供的仿生机器鱼水下探索方法的流程示意图；

图12是本发明提供的水下探索策略模型的训练装置的结构示意图；

图13是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

相关技术中，大部分水下自主导航方法通常包含有定位算法以及配套的测量系统。根据定位方法的不同，主要分为两类：全局信息制导和局部视觉定位。在一定的区域中，通过准确的全局定位信息引导，可以对仿生机器鱼实现高精度的路径跟踪。然而在野外深水环境中，仿生机器鱼难以通过视觉或者全球定位系统获取自身位置。而局部视觉定位可以采用水下主动实时定位和建图方法(Simultaneous Localization And Mapping,SLAM)，具有一定的应用价值。对于仿生机器鱼来说，其独特的运动模态和作业环境导致传统定位方法在导航中难以发挥作用。因此，近年来，研究者开始着力研究基于深度强化学习的机器鱼水下导航方法。

由于深度强化学习在仿生机器鱼的路径规划和运动优化等方面具有一定的可行性和优势，相关技术中通过训练深度强化学习控制器，并研究基于学习的控制方法能解决仿生机器鱼的运动问题，但深度强化学习在自主探索和导航方向却鲜有突破。

本发明实施例通过采用深度强化学习方式对仿生机器鱼在水下环境中的交互进行学习，以提高学习能力，进而实现仿生机器鱼的探索效率与探索稳定性的提升。

在对本发明实施例进行说明之前，首先对本发明所涉及的仿生机器鱼进行说明。

本发明的仿生机器鱼通过模仿柠檬鲨的外形和运动机理，具备高机动性和低扰动等特性。仿生机器鱼可以作为水下作业平台以实现水下勘探、搜救等应用。

为实现仿生机器鱼的运动功能，仿生机器鱼的尾部结构可以为链式结构的铝合金骨架构成，是机器鲨鱼的主要推进机构，用于实现BCF(body and/or caudal fin，鱼体尾鳍推进式)运动模式。胸鳍装置用于产生俯仰力矩，实现机器鲨鱼的三维运动。

如图1所示，仿生机器鱼110安装有多种传感器，多种传感器能提高仿生机器鱼110的水下感知能力。多个传感器包括一个可实现偏航转动的单目摄像头111、四个单线激光雷达112以及一个深度传感器113。

单目摄像头111可以安装于仿生机器鱼110头部的中间位置，单目摄像头可实时采集图像，并通过无线传输模块发送到上位机。仿生机器鱼110中可以设置云台与单目摄像头111进行连接，云台能调整单目摄像头的姿态以实现对不同方位环境信息的采集，且能保持单目摄像头工作时的稳定性。

四个单线激光雷达112可以分别安装于仿生机器鱼110的前侧、左右两侧以及底部，用于检测前、左、右、底四个方向的最近障碍物或水底距离。深度传感器113可以安装于仿生机器鱼的顶部，用于实时检测仿生机器鱼距离水面的深度。

仿生机器鱼110内置有射频通讯模块140，用于与岸上系统130实时无线通讯，发送训练状态并接收动作指令。仿生机器鱼110内还设置有防水舵机，用于根据各个传感器采集的信息以及岸上系统130发送的指令控制仿生机器鱼的运动。

训练环境可以选取一个水域环境，并模仿现实水域中的障碍物人为布置一定的障碍物等，并通过设置全局摄像头120以用于采集训练阶段的全局图像信息。

例如，如图2所示，可以将训练环境布置在一个体积为5×4×1.5米的水池环境内，水池中静置四个大小不一的箱式障碍物，图中阴影部分用于表示障碍物，水池中心正上方2米处悬挂一个全局摄像头120。

当然，训练环境还可以按照其他方式进行布置，障碍物也可以选择其他类型，全局摄像头的数量也可以设置多个，此处对训练环境的布置方式不做限制。

下面结合图1-图13描述本发明的水下探索策略模型的训练方法和仿生机器鱼水下探索方法。

如图3所示，本发明的水下探索策略模型的训练方法包括步骤310、步骤320、步骤330以及步骤340。

步骤310、通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型。

需要说明的是，仿生机器鱼在水下环境进行自主探索时，在仿生机器鱼的每一步动作之前，探索策略模型能根据仿生机器鱼在当前环境下的状态信息决策出仿生机器鱼的动作信息。仿生机器鱼能根据探索策略模型决策出的动作信息生成动作指令来控制仿生机器鱼进行运动。

探索策略模型可以采用深度强化学习神经网络模型。仿生机器鱼在水下环境中与环境进行交互，探索策略模型可以在仿生机器鱼与环境的交互中不断学习，以提高学习能力，进而实现仿生机器鱼的探索效率与探索能力的提升。

在本实施方式中，探索策略模型采用深度确定性策略梯度网络模型(Deepdeterministic policy gradient,DDPG)。探索策略模型可以包括动作决策网络和动作价值网络，动作决策网络用于生成动作信息以控制仿生机器鱼进行运动，动作价值网络用于评价动作信息所带来的收益。

需要说明的是，由于探索策略模型在仿生机器鱼与环境的交互中不断学习，在对初始探索策略模型进行训练时，可以通过搭建的目标训练环境来供仿生机器鱼进行探索交互与学习。

需要说明的是，第一样本集包括仿生机器鱼的状态信息，状态信息基于仿生机器鱼在目标训练环境中自主探索时采集的目标信息确定。

仿生机器鱼在目标训练环境中通过各个传感器以及全局摄像头来获取目标信息，仿生机器鱼和岸上系统能根据采集到的目标信息确定出状态信息。

状态信息可以包括仿生机器鱼在当前位置与障碍物之间的位置关系信息以及仿生机器鱼的姿态信息。仿生机器鱼的状态信息可以至少包括第一状态量、第二状态量、第三状态量以及第四状态量。

第一状态量d_f可以为仿生机器鱼与前向障碍物之间的距离，第一状态量可以根据仿生机器鱼前侧的单线激光雷达的实时反馈数据得到，第一状态量用于保障仿生机器鱼与前向的障碍物之间能保持一定的安全距离。

第二状态量d_l可以为仿生机器鱼与左侧障碍物之间的距离，第二状态量可以根据仿生机器鱼左侧的单线激光雷达的实时反馈数据得到，第二状态量用于保障仿生机器鱼与左侧的障碍物之间能保持一定的安全距离。

第三状态量d_r可以为仿生机器鱼与右侧障碍物之间的距离，第三状态量可以根据仿生机器鱼右侧的单线激光雷达的实时反馈数据得到，第三状态量用于保障仿生机器鱼与右侧的障碍物之间能保持一定的安全距离。

第四状态量a_yaw可以为仿生机器鱼的姿态信息，第四状态量可以根据机器人内部惯性测量单元测量的机器鲨鱼绕惯性坐标系Z轴旋转角度得到，第四状态量用于描述仿生机器鱼的偏航角度值。

可以理解的是，用于表征仿生机器鱼同障碍物距离的第一状态量、第二状态量以及第三状态量均为正值，可以将第一状态量、第二状态量以及第三状态量进行归一化处理。

归一化处理后的状态量可以表示为：

其中，d_i用于表征归一化处理后的状态量，d_i0用于表征归一化处理前的状态量，归一化处理后的状态量被设置在[-1,1]的范围内。归一化处理后的状态量能够方便探索策略模型基于状态信息进行学习训练。

仿生机器鱼在目标训练环境中通过多个传感器采集信息并将采集到的信息通过射频通讯模块发送至岸上系统，岸上系统根据接收的全局视觉信息以及仿生机器鱼的本地感知信息，将仿生机器鱼的本地感知信息处理为实时的状态信息后再发送至仿生机器鱼。

仿生机器鱼在训练环境中可以进行自主探索，在进行自主探索时，仿生机器鱼针对当前所处的环境得到当前的状态信息。根据当前的状态信息，初始探索策略模型能决策出与当前状态信息对应的动作信息。仿生机器鱼再根据动作信息产生一步运动并处于新的环境中，此时仿生机器鱼的状态信息也发生了变化。

需要说明的是，仿生机器鱼通过中心模式发生器(Central Pattern Generator,CPG)模型将动作信息转化为控制运动的动作指令。CPG模型中的频率ω能影响仿生机器鱼BCF运动模式的尾部摆动频率，CPG模型中的偏置β则负责控制仿生机器鱼的转向运动动作。在本实施方式中，可以设置频率ω∈[0,1]和偏置β∈[-20,20]，以满足仿生机器鱼的运动性能要求。

参照图4-图7，图4-图7示出了几种在不同障碍物大小和布置方式下仿生机器鱼在进行自主探索运动的轨迹示意图。图中的阴影部分代表障碍物，曲线表示轨迹，曲线上的箭头表示仿生机器鱼的运动方向。

仿生机器鱼在目标训练环境中通过自主探索，根据每一步动作的动作信息能对初始探索策略模型的参数进行不断更新，在训练结束后最终得到第一探索策略模型。

步骤320、从第一样本集中，确定出第一状态信息，并获得与第一状态信息对应的动作信息；

在步骤310中，可以根据初始探索策略模型的动作策略网络得到当前状态信息所对应的动作信息，并通过CPG模型产生对应的动作指令以控制仿生机器鱼进行运动。

仿生机器鱼在训练环境中的每一步动作的过程都会产生相应的数据以供初始探索策略模型来进行学习以更新参数。该数据包括此步动作所对应的动作信息、此步动作之前的状态信息以及此步动作之后到达新位置后新的状态信息，此步动作所对应的动作信息与此步动作之前的状态信息相对应。

探索策略模型的动作策略网络根据此步动作之前的状态信息得到此步动作所对应的动作信息。仿生机器鱼在进行水下探索过程中的每一步都对应有状态信息以及与状态信息对应的动作信息。在训练仿生机器鱼进行水下探索过程中，将所有的状态信息保存于第一样本集中，同时将第一样本集中所有状态信息所对应的动作信息也保存于第一样本集中。

可以理解的是，在训练仿生机器鱼在水下进行探索的过程中，每当仿生机器鱼完成一条轨迹可以将该训练过程作为一个训练回合。在多个训练回合结束后，可以对仿生机器鱼执行多组无噪声的探索策略模型测试。

测试的环境可以采用目标训练环境的搭建方式进行设置，但测试的环境中障碍物的布置方式等不同于用于训练的目标训练环境、第一目标区域以及第二目标区域。通过对测试的环境进行区分设置，使得测试环境中的状态信息不同于训练环境，进而提高测试结果的有效性，进而保证模型的鲁棒性。

测试的过程可以根据多个回合中每一步探索的贡献程度确定出较优的一步动作，进而得到该动作所对应的第一动作信息和与第一动作信息所对应的第一状态信息。

步骤330、基于第一状态信息和与第一状态信息对应的第一动作信息，确定第二样本集。

在本实施方式中，将第一状态信息和与第一状态信息对应的第一动作信息均存放于第二样本集中，第二样本集中的状态信息与动作信息对应较优的探索动作。

第二样本集中的状态信息与动作信息所对应的较优的探索动作可以是仿生机器鱼在自主探索过程中的动作，也可以是基于专家控制指令的动作。在一定的状态信息下，专家控制指令对应的动作信息能作用于CPG模型使仿生机器鱼产生的动作能带来最大的奖励值。

步骤340、以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型。

由于在线水下探索的训练过程中，很难保证仿生机器鱼能在随机训练中长时间保留历史最优的探索策略模型参数，从而容易陷入局部最优点。除此之外，高探索效率这一目的与强化学习学习视频游戏中的稀疏奖励非常相似，即仿生机器鱼需要完成若干个较低奖励值的动作后，才能有机会取得高奖励值。

在本实施方式中，第二样本集中包括仿生机器鱼在自主探索的过程中自主学习得到的较优探索动作所对应的状态信息与动作信息。

在离线环境进行训练的过程中，将奖励值较低的动作信息所对应的状态信息替换为较优的第一状态信息，并将与第一状态信息对应的动作信息作为标签对第一探索策略模型进行巩固训练，能够降低在线自主探索学习过程中奖励值较低的动作对探索策略模型的影响。

在一些实施例中，以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型，包括：在连续确定的第一状态信息的数量超过目标值的情况下，训练第一探索策略模型。

可以理解的是，在仿生机器鱼进行自主探索的过程中，每进行一个训练回合的探索，可以得到多组动作信息与状态信息。在每一回合可以根据每一步探索的贡献程度确定出该回合中较优的一步动作，进而得到该动作所对应的第一动作信息和与第一动作信息所对应的第一状态信息。

在训练回合数达到一定的数量后，例如每当训练回合数达到50回合后，即仿生机器鱼运动完成了50条自主探索轨迹，第二样本集中连续确定的第一状态信息和第一动作信息的数量超过了目标值。

在此情况下，以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签对第一探索策略模型进行训练。在此次训练后，仿生机器鱼继续进行自主探索。

在本实施方式中，通过按照一定的频率对第一探索策略模型进行离线训练，能提升模型的巩固学习效果。

根据本发明实施例的水下探索策略模型的训练方法，通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练，进而得到训练后的第二探索策略模型，能降低较为失败的动作对模型的影响，避免模型的参数陷入局部最优，从而增强了模型在实际环境中运用的鲁棒性与稳定性。

在一些实施例中，第二样本集还包括第二状态信息和与第二状态信息对应的第二动作信息，第二状态信息和第二动作信息为通过人工控制仿生机器鱼探索第一目标区域确定的。

需要说明的是，在仿生机器鱼进行自主探索的过程中，第一目标区域可以是狭窄的通道、障碍物较多的区域或者存在较大弯道的区域等，当然，第一目标区域还可以为其他区域，此处不做限制。在第一目标区域，仿生机器鱼容易做出较为失败的探索动作，不利于模型的学习。

仿生机器鱼在第一目标区域进行探索的过程中，由于第一目标区域的环境较为复杂，仿生机器鱼在做出每一步动作前在对环境中的目标信息进行采集时，采集到的目标信息无法准确得出状态信息，进而探索策略模型也无法决策出合适的动作信息。

探索策略模型在仿生机器鱼于第一目标区域进行探索的阶段无法进行有效的学习。在第一目标区域，通过专家人工对仿生机器鱼的动作进行控制来进行探索，能得到针对当前环境较优的探索动作。

第二状态信息和第二动作信息为通过专家人工控制仿生机器鱼探索第一目标区域确定，专家人工控制仿生机器鱼的动作能更好地帮助仿生机器鱼对该区域进行探索。

由于探索策略模型的奖励值所对应的奖励目标与实际所要实现的最佳探索目标存在一定的差异，因此根据该过程中专家人工控制的较优的探索动作所对应的第二状态信息和第二动作信息更加符合模型的学习目标。

在此情况下，第二样本集还包括第二状态信息和与第二状态信息对应的第二动作信息。通过以第二样本集中的第二状态信息为样本，以与第二状态信息对应的第二动作信息为标签对第一探索策略模型进行离线训练。在此次训练后，仿生机器鱼继续进行自主探索。

根据本发明实施例的水下探索策略模型的训练方法，在对第一探索策略模型进行离线训练时，通过增加基于专家人工控制获取的数据作为样本和标签来进行训练，能提高模型在特定环境中的探索决策能力。

在一些实施例中，在通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型之前，本发明实施例的水下探索策略模型的训练方法还包括：获取第三样本集，第三样本集还包括第三状态信息和与第三状态信息对应的第三动作信息，第三状态信息和第三动作信息为通过人工控制仿生机器鱼探索第二目标区域确定的。

第二目标区域用于获取足够样本数量的第三状态信息和第三状态信息所对应的第三动作信息。第二目标区域可以是本申请实施例中所搭建的目标训练环境，也可以是其他模拟水下环境的区域，当然，第二目标区域也可以是一定范围内的真实水下环境区域，此处对第二目标区域的形式不做限制。

在第二目标区域，通过专家人工对仿生机器鱼的动作进行控制来进行探索，能得到针对当前环境较优的探索动作。

第三状态信息和第三动作信息为通过专家人工控制仿生机器鱼探索第二目标区域确定。根据该过程中较优的探索动作，可以获取一定数量较优的探索动作所对应的第三动作信息和第三状态信息。

例如可以通过专家人工控制仿生机器鱼在第二目标区域中完成20分钟的探索运动，或者，通过专家人工控制仿生机器鱼在第二目标区域中完成一定长度的运动轨迹，并保存超过2000条用于强化学习训练的动作样本信息，动作样本信息包括第三动作信息和第三状态信息。

专家人工控制的较优的探索动作所对应的第三状态信息和第三动作信息更加符合模型的学习目标，使得模型能具有一定的探索动作决策能力。

在本实施方式中，以第三状态信息为样本，以第三动作信息为标签，训练探索策略模型，得到初始探索策略模型，使得初始探索策略模型的动作决策网络能具有一定的探索能力。

动作决策网络可以包含三层网络结构，中间层可以包含有64个神经元节点，并以0.0001的学习速率更新该网络5*10⁴步，通过上述的训练方式可以得到初始动作决策网络。

根据本发明实施例的水下探索策略模型的训练方法，在仿生机器鱼在目标训练环境中进行自主探索之前，通过对探索策略模型进行随机初始化，使得动作决策网络能具有一定的决策能力，进而保证了在目标训练环境中进行自主探索时能获取具有一定数量有效样本的第一样本集，提升了训练早期仿生机器鱼的探索效率，降低了时间和计算成本的损耗。

在一些实施例中，通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，包括：根据预先为初始探索策略模型进行动作决策所配置的奖励函数，计算初始探索策略模型决策出的动作信息对应的奖励信息，奖励信息包含具体的奖励值。

初始探索策略模型能根据当前的动作价值网络来对动作策略网络决策的动作信息实时反馈奖励信息。

奖励信息由奖励函数确定，奖励函数由多个子函数确定，奖励函数由以下公式确定：

R＝r_o+r_d+r_a+r_s+r_sp，

在探索环境中存在较多的障碍物的情况下，仿生机器鱼通过前方、左侧和右侧的单线激光雷达判断是否有可能发生碰撞。发明人发现在仿真测试中，距离信息通常是绝对准确的，而在实际应用中的实测结果滞后，且不完全可信。

当实测数据在距离障碍物200cm内，单线激光雷达的测试数据是持续稳定的。当距离超过200cm时，在光线的影响下，单线激光雷达的测试数据结果往往会不断跳变。

在一些实施例中，碰撞损失子函数r_o可以在仿生机器鱼过于靠近障碍物时进行惩罚，碰撞损失子函数可以表示为：

其中，P＝-50表示对仿生机器鱼与障碍物实际发生的碰撞有额外的惩罚，w是距离惩罚系数，w_f和w_l,r表示对不同方向障碍物的容忍程度，w_f可以取值0.7，w_l,r可以取值0.15，其中的f、l和r分别代表前侧、左侧和右侧；Ω_i是计算得到的初始惩罚值，D可以取值200cm。

在本实施方式中，通过设计反比函数来指导仿生机器鱼不要太靠近障碍物，能降低仿生机器鱼与障碍物发生碰撞的概率。

在一些实施例中，仿生机器鱼很容易因为大量的碰撞而受到惩罚，最终导致收敛到零输出。这种消极的运动策略可以在训练的开始阶段通过长航程奖励来消除。

如图8和图9所示，图中的阴影区域代表障碍物。可以将全局视觉系统中的水域划分为一个8×10的网格图，并定义为一个相同大小的探索禁忌表

该表格元素初始化为0。当机器鲨鱼探索进入一个新的网格时，

中的相应元素被设置为1。此外，每个新网格都会增加一个额外的离散奖励1，从而进一步强调探索效率提升带来的梯度变化。

探索效率可以通过探索的有效路径长度和有效探索范围来进行衡量，图中的曲线代表有效探索路径，图中的网格A代表有效的探索范围。

有效路径长度子函数可以表示为：

其中，w_d为探索效率权重，w_d为

所有元素和的对数，L_Δt为在目标时间段内的探索路径长度。

有效探索范围子函数可以表示为：

其中，

表示当前时刻的探索禁忌表，用于表征当前时刻的探索范围；

表示上一时刻的探索禁忌表，用于表征上一时刻的探索范围。

在本实施方式中，通过引入探索效率对应的奖励函数，能避免仿生机器鱼因为简单的距离奖励而陷入毫无意义的绕圈运动。

需要说明的是，虽然仿生机器鲨鱼具有高机动性，可以适应CPG模型参数的快速变化，但大角度的转向仍然会对尾部的舵机齿轮造成损坏。此外，一些无意义的绕圈运动也不利于有效的探索。

探索路径平滑性子函数r_s可以针对轨迹平滑度的损失对仿生机器鱼执行动作信息进行奖励，以削弱动作指令控制律的无效震荡。

探索路径平滑性子函数可以表示为：

r_s＝w_s*|ψ_t-ψ_t-1|，

其中，其中ψ_t为t时刻的偏航角，w_s的设计能平衡该损失项对总奖励的影响。

在通常情况下，太快的游动速度使仿生机器鱼出现较多碰撞，太慢的速度会导致较低的探索奖励。因此，在根据专家经验将其游动速度限制在0.05m/s至0.35m/s之间时，速度损失子函数r_sp允许仿生机器鱼在低速下避开障碍物，但严厉惩罚静止不动的情况，进而在减少碰撞的情况下提高探索效率。

速度损失子函数可以表示为：

可以理解的是，初始探索策略模型能根据仿生机器鱼执行动作信息的前后状态信息以及奖励信息，更新初始探索策略模型的参数，得到第一探索策略模型。

仿生机器鱼在自主探索的过程中，初始探索策略模型可以根据奖励函数针对每次决策出的动作信息的奖励信息来进行自主学习。仿生机器鱼在水下自主探索进行初始探索策略模型的学习可以看作马尔科夫决策过程(Markov Decision Process,MDP)。

初始探索策略模型的动作决策网络根据当前的状态信息s_i决策出动作信息a_i，仿生机器鱼根据动作信息a_i做出一步动作，此时仿生机器鱼处于新的环境中，新的环境对应有下一状态信息s_i+1。仿生机器鱼根据动作决策网络每决策一次做出一步动作后，保存最新的状态信息、动作信息以及奖励信息到数据库中。

初始探索策略模型的动作价值网络用来描述仿生机器鱼的动作价值函数Q(s,a|θ^Q)，其中θ^Q代表该网络参数。

动作价值网络通过迭代最小化均方误差实现更新，首先确定出动作价值网络的损失函数：

y_i＝r_i+γQ'(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，

，其中，γ是折扣因子，在本实施方式中γ＝0.95，y_i看做标签，r_i代表在状态信息s_i下根据奖励函数R得到的奖励信息，Q'(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)为动作价值网络在状态s_i+1下执行动作信息μ′(s_i+1|θ^μ′)得到的目标价值，μ′(s_i+1|θ^μ′)为动作决策网络在状态信息s_i+1下输出的动作信息；Q(s_i,a_i|θ^Q)为动作决策网络在状态信息s_i下执行动作信息a_i得到的目标价值，L为动作价值网络的损失函数，N为状态信息s_i样本的数量。

在得到损失函数后，通过计算动作价值网络的损失函数L针对动作价值网络的网络参数θ^Q的梯度从而实现对动作价值网络的参数的更新。

动作决策网络通过蒙特卡洛方法从数据库重采样状态信息、动作信息以及奖励信息，通过计算动作价值网络的损失函数并计算策略梯度

再采用随机梯度下降的方法更新动作策略网络实现参数的更新。

在本实施方式中，如图10所示，通过专家手动控制的动作样本对探索策略模型进行初始化后，仿生机器鱼的第一探索策略模型通过在线自主探索进行训练。

图4-图7示出的四条轨迹可以视为四个训练回合。在不同的训练回合，可以通过改变初始状态仿生机器鱼的出发位置来实现对状态信息的更改。在每完成一定数量回合如100回合的训练后，还可以更新在线训练场景内的障碍箱的位置，进而丰富仿生机器鱼在训练过程中所能采集到的状态信息的样本数量，进而提高仿生机器鱼的学习能力和学习效果。

在单个训练回合中，遵循摘要附图中的训练流程，机器鲨鱼每间隔一个时间步长，接收一个新的动作指令a_t，如下：

其中，

代表服从正态分布的随机噪声，μ(s_t|θ^μ)为动作决策网络在状态信息s_i下输出的动作信息。

每个训练回合从水池的随机位置开始运动，并将每个回合的状态信息、动作信息以及奖励信息存放于第一样本集，进而对第一样本集不断更新。

每当训练的回合数达到一定的数量后，在每一回合中确定出的较优的一步动作，所对应的第一动作信息和与第一动作信息所对应的第一状态信息也达到一定数量，即离线存储的第二样本集中具有一定数量的样本数量。在不断在线训练的过程中，第二样本集中的样本数量不断增加，进而也实现了更新。

每当在线训练一定数量的回合数后，以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签对第一探索策略模型进行巩固模仿训练，能提升模型的巩固学习效果。

根据本申请实施例的水下探索策略模型的训练方法，通过基于壁撞原则、鼓励探索原则、平滑路径原则以及速度适中原则来设计奖励函数，能保证仿生机器鱼的初始探索策略模型进行有效的参数更新并保存足够数量的有效训练样本，进而方便后续对模型进行有监督的巩固学习。

参照图11，本发明实施例还提供一种仿生机器鱼水下探索方法，包括步骤1110、步骤1120和步骤1130。

步骤1110、获取当前位置的目标状态信息。

目标状态信息为仿生机器鱼当前所在位置的状态信息，目标状态信息有仿生机器鱼的多个传感器以及全局摄像头采集的全局图像信息确定得到。

步骤1120、将目标状态信息输入至上述水下探索策略模型的训练方法训练得到的第二探索策略模型，得到与目标状态信息对应的目标动作信息。

可以理解的是，第二探索策略模型通过第二样本集中的数据巩固学习强化得到，第二探索策略模型的动作决策网络针对目标状态信息输出目标动作信息。

步骤1130、基于目标动作信息，控制机器鱼进行运动。

根据目标动作信息，仿生机器鱼的CPG模型能生成对应的动作指令来控制仿生机器鱼进行运动以实现对水下环境的探索。

根据本申请实施例的仿生机器鱼水下探索方法，通过利用经过巩固强化学习的第二探索策略模型对仿生机器鱼的动作进行决策，能提高仿生机器鱼对发造水下环境的探索能力以及提高第二探索策略模型的鲁棒性与稳定性。

下面对本发明提供的水下探索策略模型的训练装置进行描述，下文描述的水下探索策略模型的训练装置与上文描述的水下探索策略模型的训练方法可相互对应参照。

如图12所示，水下探索策略模型的训练装置包括第一训练模块1210、第一处理模块1220、第二处理模块1230和第二训练模块1240。

第一训练模块1210用于通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，第一样本集包括仿生机器鱼的状态信息，状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定；

第一处理模块1220用于从第一样本集中，确定出第一状态信息，并获得与第一状态信息对应的第一动作信息；

第二处理模块1230用于基于第一状态信息和与第一状态信息对应的第一动作信息，确定第二样本集；

第二训练模块1240用于以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型。

根据本申请实施例的水下探索策略模型的训练装置，通过利用仿生机器鱼的历史经验中的较优动作所对应的第一状态信息与第一动作信息对第一探索策略模型进行训练，进而得到训练后的第二探索策略模型，能降低较为失败的动作对模型的影响，避免模型的参数陷入局部最优，从而增强了模型在实际环境中运用的鲁棒性与稳定性。

在一些实施例中，第二训练模块1240还用于在连续确定的第一状态信息的数量超过目标值的情况下，训练第一探索策略模型。

在一些实施例中，水下探索策略模型的训练装置还包括第三处理模块和第三训练模块，第三处理模块用于获取第三样本集，第三样本集还包括第三状态信息和与第三状态信息对应的第三动作信息，第三状态信息和第三动作信息为通过人工控制仿生机器鱼探索第二目标区域确定的；第三训练模块用于以第三状态信息为样本，以第三动作信息为标签，训练探索策略模型，得到初始探索策略模型。

在一些实施例中，第一训练模块1210还用于根据预先为初始探索策略模型进行动作决策所配置的奖励函数，计算初始探索策略模型决策出的动作信息对应的奖励信息；第一训练模块用于基于仿生机器鱼执行动作信息的前后状态信息以及奖励信息，更新初始探索策略模型的参数，得到第一探索策略模型。

在一些实施例中，奖励函数由多个子函数确定，奖励函数由以下公式确定：

R＝r_o+r_d+r_a+r_s+r_sp，

图13示例了一种电子设备的实体结构示意图，如图13所示，该电子设备可以包括：处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1240，其中，处理器1310，通信接口1320，存储器1330通过通信总线1240完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令，以执行水下探索策略模型的训练方法，该方法包括：通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，第一样本集包括仿生机器鱼的状态信息，状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定；从第一样本集中，确定出第一状态信息，并获得与第一状态信息对应的第一动作信息；基于第一状态信息和与第一状态信息对应的第一动作信息，确定第二样本集；以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型。

此外，上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的水下探索策略模型的训练方法，该方法包括：通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，第一样本集包括仿生机器鱼的状态信息，状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定；从第一样本集中，确定出第一状态信息，并获得与第一状态信息对应的第一动作信息；基于第一状态信息和与第一状态信息对应的第一动作信息，确定第二样本集；以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的水下探索策略模型的训练方法，该方法包括：通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，第一样本集包括仿生机器鱼的状态信息，状态信息基于仿生机器鱼在目标训练环境中采集的目标信息确定；从第一样本集中，确定出第一状态信息，并获得与第一状态信息对应的第一动作信息；基于第一状态信息和与第一状态信息对应的第一动作信息，确定第二样本集；以第二样本集中的第一状态信息为样本，以与第一状态信息对应的第一动作信息为标签，训练第一探索策略模型，得到第二探索策略模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种水下探索策略模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的水下探索策略模型的训练方法，其特征在于，所述第二样本集还包括第二状态信息和与所述第二状态信息对应的第二动作信息，所述第二状态信息和所述第二动作信息为通过人工控制所述仿生机器鱼探索第一目标区域确定的。

3.根据权利要求1所述的水下探索策略模型的训练方法，其特征在于，所述以第二样本集中的所述第一状态信息为样本，以与所述第一状态信息对应的第一动作信息为标签，训练所述第一探索策略模型，得到第二探索策略模型，包括：

4.根据权利要求1-3中任一项所述的水下探索策略模型的训练方法，其特征在于，在所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型之前，所述方法还包括：

5.根据权利要求1-3中任一项所述的水下探索策略模型的训练方法，其特征在于，所述通过第一样本集对仿生机器鱼的初始探索策略模型进行训练，得到第一探索策略模型，包括：

6.根据权利要求5所述的水下探索策略模型的训练方法，其特征在于，所述奖励函数由多个子函数确定，所述奖励函数由以下公式确定：

R＝r_o+r_d+r_a+r_s+r_sp，

7.一种仿生机器鱼水下探索方法，其特征在于，包括：

获取当前位置的目标状态信息；

将所述目标状态信息输入至如权利要求1-6任一项所述的水下探索策略模型的训练方法训练得到的所述第二探索策略模型，得到与所述目标状态信息对应的目标动作信息；

基于所述目标动作信息，控制所述仿生机器鱼进行运动。

8.一种水下探索策略模型的训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述水下探索策略模型的训练方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述水下探索策略模型的训练方法的步骤。