CN116766187A

CN116766187A - 一种面向水陆两栖机器人的环境自适应变构方法

Info

Publication number: CN116766187A
Application number: CN202310749597.9A
Authority: CN
Inventors: 蔡磊; 高羽翯; 周蒙; 贾积身
Original assignee: Henan Institute of Science and Technology
Current assignee: Henan Institute of Science and Technology
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19

Abstract

本发明提出了一种面向水陆两栖机器人的环境自适应变构方法，多传感器安装在水陆两栖机器人上，将多传感器采集的水陆两栖机器人的运动数据进行预处理；将预处理后的运动数据进行融合，利用融合后的数据构建三维运动环境地图；三维运动环境地图与柔性波动鳍位姿信息共享，获取柔性波动鳍的三维环境信息；通过多传感器输出的数据，根据三维运动环境信息实时识别地况，采用迁移学习进行教师‑学生训练柔性波动鳍自主变构；水陆两栖机器人面对突发环境变化被迫更改预设轨迹时，基于过渡动作生成部分多鳍点运动。本发明可以针对具体环境特征进行柔性波动鳍的水平或垂直变构，有效提升水陆两栖机器人面对不同登陆环境的通过性能，提高机器人的登陆速度。

Description

一种面向水陆两栖机器人的环境自适应变构方法

技术领域

本发明涉及水陆两栖机器人自主控制的技术领域，尤其涉及一种面向水陆两栖机器人的环境自适应变构方法，采用多传感器融合环境建模信息和机器人位姿信息，基于本体感受信号流的神经网络策略实现环境自适应的机器人自适应变构。

背景技术

现有的轮式两栖机器人虽具备较快的运行速度，但不能够很好适应松软滩涂、沼泽湿地、崎岖礁石等场景，通过性较差。履带式两栖机器人具备较强的地面适应能力和地形通过性，但其越障能力受制于地盘尺度限制。基于仿生学的仿蝠鲼机器人其运动结构具备水中、陆上运动能力，可适应湿滑壁面、冰面、礁石等运动场景，相较于传统的轮式、履带式两栖登陆设备，仿蝠鲼机器人在两栖登陆过程中具备水中运行速度快、运动结构转换迅速、地形适应能力强的优点，同时仿蝠鲼机器人仅需一套波动鳍即可满足在水中和陆上的运动，与传统的轮式和履带式两栖登陆设备在水中依赖推进器进行运动相比，更加节省自身空间。仿蝠鲼水陆两栖机器人在变构过程中需要确定鳍面水平垂直变构、鳍面波形的变化、鳍面遇到干扰时鳍面鳍点的变化。已有的仿蝠鲼水陆两栖机器人运动结构单一，仅有其固定的运动模式，存在运动能力差、地形适应性差等问题。

水陆两栖机器人是以柔性波动鳍为驱动的可变构仿蝠鲼机器人。水陆两栖机器人的柔性波动鳍具有双曲线几何形状的四维物体，可以进行空间上的水平和垂直的整体鳍面变换，可以自适应的进行水下航行、冰面滑行和陆地攀爬等不同环境构型调整，以便顺利通过各种环境。水陆两栖机器人的双侧柔性波动鳍的波动曲线近似正弦函数，振幅、频率可以根据部分鳍点或全部鳍点变换进行曲线调整。因此水陆两栖机器人可针对不同环境进行结构变换，能够在未知复杂的自然环境中改变运动状态，穿越任何地形到达指定地点，确保在未知复杂的自然环境中的通过性，实现环境自适应变构功能。

申请号为202310071091.7的发明专利公开了一种水下机器人运动控制方法，包括：获取待控制的水下机器人的当前运动状态和任务目标；将当前运动状态和任务目标输入至反馈控制器，得到反馈控制器输出的第一控制动作；将当前运动状态和任务目标输入至残差控制器，得到残差控制器输出的第二控制动作，残差控制器是基于强化学习方法在仿真环境中训练得到的，仿真环境基于周期性参数随机化策略调整；基于第一控制动作和第二控制动作，对水下机器人进行运动控制。上述发明实现了在扰动情况下对水下机器人进行高效、精准的运动控制，但是其所构建的水下机器人运动环境为仿真环境，与现实运动环境存在很大出入，这使得机器人无法正确认知现实环境。且该运动控制方法是水下简单构型机器人所适用的，不适合复杂构型调整运动控制。因此本专利申请提出以蝠鲼为原型设计的复杂构型运动控制机器人，其构型分为两部分，一部分是柔性波动鳍鳍面进行水平或垂直构型调整，另一部分是多鳍点的运动带动鳍面的构型调整，通过多构型调整使水陆两栖机器人在复杂环境下稳定运动。

发明内容

针对传统的水陆两栖机器人运动形式单一，对海洋环境、滩涂、沼泽湿地、光滑壁面等登陆环境下的适应性弱，遇到障碍物或湍流等突发环境问题时，部分鳍点的突然变动可能会造成机器人出现偏航或者侧翻的技术问题，本发明提出一种面向水陆两栖机器人的环境自适应变构方法，采用迁移学习的思维进行教师-学生训练柔性波动鳍自主变构，针对具体环境特征进行柔性波动鳍的水平或垂直变构，有效提升水陆两栖机器人面对不同登陆环境下的通过性能，提高机器人的登陆速度。

为了达到上述目的，本发明的技术方案是这样实现的：一种面向水陆两栖机器人的环境自适应变构方法，其步骤为：

步骤一：多传感器安装在水陆两栖机器人上，将多传感器采集的水陆两栖机器人的运动数据进行预处理；

步骤二、将预处理后的运动数据进行融合，利用融合后的数据构建三维运动环境地图；

步骤三、三维运动环境地图与柔性波动鳍位姿信息共享，获取柔性波动鳍的三维环境信息；

步骤四、水陆两栖机器人通过多传感器输出的数据，根据三维运动环境信息实时识别地况，采用迁移学习进行教师-学生训练柔性波动鳍自主变构；

步骤五、水陆两栖机器人面对突发环境变化被迫更改预设轨迹时，基于过渡动作生成部分多鳍点运动，以确水陆两栖保机器人稳定运动。

优选地，所述多传感器包括水下相机、激光雷达和触觉传感器，触觉传感器安装在柔性波动鳍末端与地面接触部位，输出数据为压力数据；水下相机安装在水陆两栖机器人前端，可以在路面、水中进行图像采集，输出数据为图像数据；激光雷达安装在水陆两栖机器人机体上方，通过发射激光来测量周围事物的距离，输出数据为点云数据；

采用水下相机进行目标识别；通过激光雷达对周围的环境进行扫描，并开展特征点提取，提取后的特征数据与空间地图数据库进行匹配，确定出自身位置信息；通过触觉传感器进行环境粗糙程度感知；

所述预处理的方法包括降噪处理和时间同步，采用多项式最小二乘滤波方法对多个传感器采集的样本数据进行降噪处理；

通过时间同步将多传感器的输出数据修正，得到多传感器在每一帧图像数据与对应的点云数据、压力数据一一对应；

通过对比时间序列的图像数据、点云数据、压力数据的序列来估计水陆两栖机器人的姿态信息，获得图像对应点的相对姿态信息：给定三条时间序列为：取d(X,Y)＝d(Y,Z)时，图像数据、点云数据、压力数据为同步数据，三条等长时间序列用两个Minkowski距离表示：

其中，分别表示图像数据、点云数据、压力数据在t＝i时刻的时间值，n为水陆两栖机器人从开始运动到当前运动的总时间长度，p为时间修正参数。

优选地，在水下相机、激光雷达和触觉传感器同步的情况下，进行外参标定，通过水下相机与激光雷达3显示环境中共有事物特征进行3D-3D点对匹配，用刚体的平移变换和旋转变换来描述三维的激光雷达和水下相机在空间中的相对位置关系，在相对位置关系的基础上，由多传感器时间同步输出数据修正，在每个时间点值加入压力值数据，最终实现多传感器数据融合；原理为：

其中，由水下相机捕获的图像数据由(u,v)表示，激光雷达捕获的点云数据用(x,y,z)表示，为柔性波动鳍面上分布的第i个触觉传感器捕获的压力值，K、T、P_w均为矩阵参数；

三维到二维两个坐标系变化的旋转矩阵为R和平移矩阵为T的目标是建立一个转化矩阵M，将三维点映射到二维点；在已知传感器点的对应关系的情况下，设P和Q是同一个目标在不同坐标系下的两组点，采用Kabsch算法进行点对间的RT矩阵运算：

其中，p_j和q_j是集合内的第j个点，得出标定后的旋转矩阵R和平移矩阵T后，将激光雷达点云作刚体变换转移至相机坐标系下，再投影至图像坐标系中，最终返回有色点云至雷达坐标系中，得到水下相机和激光雷达融合的机器人运动环境建图；

在水下相机和激光雷达融合基础上，在后端闭环检测图优化部分，利用图像数据辅助三维激光雷达的点云数据完成闭环候选帧选取，基于融合点云构建新的点云表达形式，进行点云网格化实现稀疏点云稠密化重建效果；同时基于触觉传感器的压力数据，在图像数据辅和点云是数据的基础上进行纹理特征修正，在建图中对应的坐标系点加入触觉传感器提供的图像坐标系压力数据，使得水陆两栖机器人柔性波动鳍感知地图中位置的压力变化，通过压力数据值修正三维环境图的细节纹理信息特征，实现精细的三维运动环境地图构建。

优选地，在运动过程中，通过运动的不断变化调整三维运动环境地图，得到一个精确环境地图进行自主的位姿调整变构，以激光雷达结合水下相机为主要传感器，以触觉传感器作为三维环境图细节特征图修正，实现三维环境地图构建；将水陆两栖机器人定位与地图构建问题分解为两部分：先进行水陆两栖机器人定位即水陆两栖机器人柔性波动鳍t＝0时的初始相位，后进行环境地图构建，定位与地图构建问题的条件联合概率分布为：

p(x_1:t,m|u_1:t,z_1:t)＝p(x_1:t|u_1:t,z_1:t)p(m|x_1:t,z_1:t)

式中，p(x_1:t|u_1:t,z_1:t)为t时刻水陆两栖机器人的位姿估计，p(m|x_1:t,z_1:t)为t时刻地图构建的闭式计算；采用粒子滤波来估计水陆两栖机器人t时刻的位姿：

p(x_1:t|u_1:t,z_1:t)＝ηp(z_t|x_t)p(x_t|x_t-1,u_t)p(x_1:t-1|z_1:t-1,u_1:t-1)

式中，p(z_t|x_t)为观测模型，p(x_t|x_t-1,u_t)为水陆两栖机器人运动学模型，p(x_1:t-1|z_1:t-1,u_1:t-1)为水陆两栖机器人t-1时刻的轨迹，η为位姿估计参数；

在三维运动环境图中根据图中上下文和颜色的不同，采用语义分割的方法根据图像数据、点云数据、压力数据的输入预测每一个点的语义标签，通过给定的带有标签的原域训练一个语义分割网络，能够转移到无标记的目标域，可使水陆两栖机器人能够对三维运动环境图进行场景解析。

优选地，在两栖登陆阶段，水陆两栖机器人通过触觉传感器感知环境压力变化，采用教师政策训练，访问机器人运动的三维环境信息，指导水陆两栖机器人根据实况地形进行柔性波动鳍自主变构，教师制定的政策用来指导学生；按照迁移学习的机理，采用时间卷积网络接收一系列水下相机的图像数据、激光雷达的点云数据以及压力传感器的压力数据作为输入，机器人基于本体感受状态扩展历史产生驱动，并从本体感受历史中对接触和运动事件进行推理变构；通过储存的训练的数据信息，在识别出环境信息时开始做出判断，判断所处环境应该使用何种姿态进行驱动；通过训练的数据，根据各个传感器感知到的数据与数据库的环境进行对比，根据感知环境进行自主变构；水陆两栖机器人从所建立完成的实时三维环境图中识别实况地形，针对不同的地形进行教师指导构型调整。

优选地，设置场景初始柔性波动鳍波动方程为教师指导变构：

当场景为光滑的冰面时，设定冰面场景为η_ice，柔性波动鳍初始运动方程为：

式中，参数d和l是鳍面的空间坐标，A(v,o)_ice为冰面柔性波动鳍的幅值，λ₀为柔性波动鳍波长，T₀为柔性波动鳍的运动周期，t为柔性波动鳍的运动时刻，a_ice和b_ice为冰面幅值参数；ω为环境场景分类，现实环境中压力参数在范围[0,ψ]内可以容错环境信息，ψ表示承受最大压力值，A(v,o)_ice、λ₀、T₀值在确定环境场景中根据环境差异进行变化，z表示波动鳍在时间t的运动方程；

当场景为平坦的路面时，设定路面场景为ω_paevement，柔性波动鳍设为水平构型Θ_level，初始运动方程为：

A(v,o)_pavement＝a_pavemento(v+b_pavement)

当场景为水中时，设定水中场景为ω_water，柔性波动鳍设为水平构型Θ_lepel，初始运动方程为：

A(v,o)_water＝awatero(v+b_water)

当场景为滩涂时，设定滩涂场景为ω_sand，柔性波动鳍设为垂直构型Θ_vertical，初始运动方程为：

优选地，当水陆两栖机器人进行未知场景运动时，若水陆两栖机器人在实时三维环境运动图上通过水下相机观测场景为路面场景P，触觉传感器感知环境数据为路面场景P，但激光雷达感知数据为冰面场景I，此时需要处理器判定自身所处环境，水陆两栖机器人根据教师指导策略对所收集的信息与数据库的信息数据库比对判断自身所处环境，以多传感器最终结果判定为路面场景P，然后调取路面场景P下水陆两栖机器人构型；将柔性波动鳍构型调整为路面初始构型状态；

由触觉传感器输出的压力值ψ⁺较高，综合实时三维环境图的信息，确定场景为Pψ⁺型环境，即粗糙路面场景；水陆两栖机器人通过自学习，在水平构型的基础上根据路面情况调整幅值A(x,y)_pavement、波长λ、周期T的值，进行柔性波动鳍的环境自适应运动，柔性波动鳍波动方程为：

A(v,o)_pavement＝a_pavemento(v+b_pavement)

式中，λ₁为调整后的柔性波动鳍波长，T₁调整后的柔性波动鳍周期。

优选地，通过教师-学生策略训练水陆两栖机器人，如果水陆两栖机器人遇到训练过的场景，可直接调取柔性波动鳍变构记忆信息；如果水陆两栖机器人遇到与训练的场景参数相差很大，使用时间卷积网络对本体感受状态扩展，利用马尔可夫决策过程判断决策鳍点的位姿变化：其过程由状态空间s、动作空间ζ、标量回报函数和转移概率P(s_l+1∣s_t,ζ_t)定义，在策略π(ζ_t|s_t)中选择一个动作，并从环境中接收一个奖励r_t，目标是找到一个最优策略π^*在无限的时间范围内最大化奖励，通过奖励函数让水陆两栖机器人在遇到没有训练过得标准场景下依旧能完成环境自适应变构，从而进行水陆两栖机器人柔性波动鳍的变构调整；其中，s_t为在t时刻的状态空间，s_t+1为t+1时刻的状态空间，ζ_t为t时刻的动作空间。

优选地，基于过渡动作生成的部分多鳍点运动根据多传感器感知到的三维环境信息，对于干扰区域进行柔性波动鳍部分部位的变动，以点成面带动水陆两栖机器人柔性波动鳍的变动，使得水陆两栖机器人遇到障碍物或湍流等突发环境问题时可以顺利通过；

鳍点基于周期性运动，水陆两栖机器人柔性波动鳍鳍点在t时刻的波动轨迹为：

其中，参数d和l是鳍点的空间坐标，θ_m是鳍点运动幅值，T是鳍点运动周期，λ是行波波长，φ是鳍点运动相位差，其周期相位变量φ_i∈[0,2π]；无量纲系数r_y和r_z用于调节运动坐标；p_x(d,s,t)、p_y(d,s,t)、p_z(d,s,t)分别表示柔性波动鳍t时刻在x轴、y轴、z轴的曲线方程。

优选地，当水陆两栖机器人遇到小型障碍物部分鳍点被迫变动时即柔性波动鳍各个鳍点位置未到达波动轨迹方程指定位置，水陆两栖机器人判定遇到障碍物阻碍正常波动，需调整个别鳍点的位置，被迫变动部位后面的鳍点为完成一个柔性波动鳍的周期运动，采用策略调制轨迹生成器架构来提供运动生成的先验，通过基于长短期记忆网络的鳍点循环过渡网络策略合成剩余柔性波动鳍相位和运动基元；当动作不稳定时，通过分析每个鳍点的位置目标，利用控制器来跟踪鳍点的位置目标，通过训练计算得出在该情况下鳍点应该如何波动；

使用策略调制鳍点轨迹生成器来提供鳍点运动生成的先验调节控制器，包括每个鳍点轨迹生成器和一个鳍点循环过渡网络策略；通过强化学习与神经网络相结合，神经网络策略合成残差位置，以此来调整鳍点相位的运动；通过比例微分控制器建立鳍点相对位置动力学模型，将策略由模拟转变为现实，从而达到鳍点轨迹生成；

鳍点轨迹生成器是一个函数输出每个柔性波动鳍的鳍点位置目标；当频率偏移f_i不为零时，策略调制轨迹生成器驱动垂直步进运动，策略输出和目标鳍点位置残差且第i个鳍点的目标位置是：每个时间t，φ_i＝(φ_i,0+(f₀+f_i)t)；

其中，φ_i,0是初始相位，f₀是公共基本频率，并且f_i是第i个鳍点的频率偏移，f₀+f_i≠0。

与现有技术相比，本发明的有益效果：在未知的复杂环境下，通过对多传感器数据进行预处理、修正得到稳定的数据，以构建三维环境地图为前提；将三维地图信息与水陆两栖机器人柔性波动鳍位姿变化信息进行共享，以此来确定柔性波动鳍的精确位姿；再运用迁移学习思想采用教师-学生政策训练，使得柔性波动鳍能够根据环境条件完成自主变构；最后当水陆两栖机器人遇到障碍物等恶劣环境，根据所处环境干扰进行部分鳍点的变动，使用策略调制轨迹生成器生成部分多鳍点的过渡动作，以点成面，根据多鳍点的变动从而使柔性波动鳍进行部分区域变动，使得水陆两栖机器人在每一帧可以进行连贯运动，带动水陆两栖机器人柔性鳍的连贯变动，使得水陆两栖机器人遇到障碍物或湍流等突发环境问题时可以顺利通过，保持机器人自身的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明的柔性波动鳍与多鳍点变构关系示意图。

图3为本发明水陆两栖机器人变构水平鳍的示意图。

图4为本发明水陆两栖机器人变构垂直鳍的示意图。

图5为本发明水陆两栖机器人的结构示意图。

图中，1为触觉传感器，2为水下相机，3为激光雷达，4为柔性波动鳍，5为鳍点。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种面向水陆两栖机器人的环境自适应变构方法，其步骤如下：

步骤一：将多传感器安装在水陆两栖机器人上，将多传感器采集的水陆两栖机器人的运动数据进行预处理。

在未知环境行驶中，水陆两栖机器人受到泥沙、湍流、鱼群等外界环境的干扰，会出现侧翻或者运动受阻的问题。为防止侧翻或者运动受阻对行驶造成影响，通过水下相机、激光雷达、触觉传感器进行协同感知，控制器对接收的传感器信息进行融合处理。在复杂的水下环境中采用水下相机进行目标识别，让机器人可以实现“看得见”；通过激光雷达对周围的环境进行扫描，并开展特征点提取，提取后的特征数据与空间地图数据库进行匹配，确定出自身位置信息；通过触觉传感器进行环境粗糙程度感知，如光滑的冰面、摩擦阻力较大的地面、流动的水中等，让水陆两栖机器人可以实现“摸得到”功能。通过多传感器数据融合，建立水陆两栖机器人所处的三维环境地图。

水陆两栖机器人是以仿蝠鲼机器人为原型进行自主变构，其结构图如图5所示，触觉传感器1安装在柔性波动鳍末端、与地面接触部位，其输出数据为压力数据值；水下相机2安装在水陆两栖机器人前端，可以在路面、水中进行图像采集，其输出数据为图像数据；激光雷达3安装在水陆两栖机器人机体上方，通过发射激光来测量周围事物的距离，其输出数据为点云数据；柔性波动鳍4为水陆两栖机器人的两侧柔性材料，是水陆两栖机器人的行走装置，利用柔性波动鳍的变化推进机器人行走；鳍点5是柔性波动鳍与机体连接处的各个点，通过鳍点的摆动带动柔性波动鳍进行周期或振幅变化。

水下相机采集的图像数据、激光雷达采集的点云数据、触觉传感器采集的压力数据构成的时间序列的样本数据可能存在波动大、光滑性差的问题，对后续数据融合的精度会造成很大的影响，因此采用多项式最小二乘滤波方法对多个传感器采集的样本数据进行进行降噪处理。使样本数据具有更好的稳定性，为后续多传感器数据融合模型的建立提供有效、可靠的数据。

通过时间同步将多传感器的输出数据修正，得到多传感器在每一帧(图像数据)与对应的点云数据、压力数据一一对应。多传感器在进行数据测量时，由于传感器的执行任务不同，所处环境差异等多方面原因，使得传感器的观测数据存在不同步的问题，需要将不同传感器在不同空间获得的目标数据进行统一，主要通过对比序列的视觉图像数据、点云数据、压力数据的序列来估计水陆两栖机器人的姿态信息，获得图像对应点的相对姿态信息。给定三条时间序列为：找到一个合适的度量函数Sim(x,y,z)来衡量三条时间序列的相似性。

由于时间具有传递性，为了简便复杂运算，取d(X,Y)＝d(Y,Z)时，视觉数据图像数据、点云数据、压力数据为同步数据，所以三条等长时间序列可以用两个Minkowski距离表示：

其中，分别表示视觉数据图像数据、点云数据、压力数据在t＝i时刻的时间值，n为水陆两栖机器人从开始运动到当前运动的总时间长度，p为时间修正参数。

利用Minkowski距离方法计算相继估计的视觉时间序列与激光点云时间序列、激光点云时间序列与压力值时间序列之间的匹配度时，某一时间点的Minkowski距离为最小，此时视觉时间序列与激光点云时间序列、激光点云时间序列与压力值时间序列是相对应的，以便后续构建三维环境图中在同一时间点显示真实数据，尽量避免因为传感器的延迟输出导致的环境信息不对应问题。

步骤二、将预处理后的运动数据进行融合，利用融合后的数据构建三维运动环境地图。

如图5所示，由于水陆两栖机器人上装配有触觉传感器1、水下相机2和激光雷达3，本发明的多传感器融合是在原有的视觉传感器和激光雷达的基础上加入触觉传感器进行数据融合。多传感器的数据特征不同，需要综合多传感器的数据信息为三维环境图做数据支撑。通过水下相机2、激光雷达3与触觉传感器1获得的数据构建三维视图。

在水下相机、激光雷达和触觉传感器同步的情况下，对三者进行外参标定，通过水下相机2与激光雷达3显示环境中共有事物特征进行3D-3D点对匹配，用刚体的平移变换和旋转变换来描述三维的激光雷达和水下相机在空间中的相对位置关系，在相对位置关系的基础上，由多传感器时间同步输出数据修正，在每个时间点值加入压力值数据，最终实现多传感器数据融合。原理公式为：

其中，由水下相机捕获的图像数据由(u,v)表示，激光雷达捕获的三维点云用(x,y,z)表示，为柔性波动鳍面上分布的第i个触觉传感器捕获的压力值，K、T、P_w为矩阵参数分别为3*3矩阵、2*2矩阵和4*1矩阵，三维到二维两个坐标系变化的旋转矩阵为R和平移矩阵为T，其目标是建立一个转化矩阵M，将三维点映射到二维点。在已知传感器点的对应关系的情况下，设P和Q是同一个目标在不同坐标系下的两组点，采用Kabsch算法进行点对间的RT矩阵运算如式(3)所示，

其中，p_j和q_j是集合内的第j个点，得出标定后的R,T矩阵后，将激光雷达点云作刚体变换转移至相机坐标系下，再投影至图像坐标系中，最终返回有色点云至雷达坐标系中，得到水下相机和激光雷达融合的机器人运动环境建图。

基于现有的粒子滤波方法的同步定位与建图(SLAM)主要可分为四个阶段：预测阶段、校正阶段、重采样阶段、地图估计阶段和循环往复阶段，直至全局建图完成。激光-视觉融合基础上，在后端闭环检测图优化部分，利用视觉图像辅助三维激光雷达完成闭环候选帧选取，基于融合点云构建新的点云表达形式，进行点云网格化实现稀疏点云稠密化重建效果。同时基于触觉传感器的压力数据，在视觉信息和雷达点云信息的基础上进行纹理特征修正，以便更好地对移动测量系统周围环境进行评估。在水下相机和激光雷达融合建图的基础上，在建图中对应的坐标系点加入触觉传感器提供的图像坐标系压力数据值，使得水陆两栖机器人柔性波动鳍感知地图中位置的压力变化，通过压力数据值修正三维环境图的细节纹理信息特征，实现精细三维运动环境地图构建，让水陆两栖机器人更好的感知“光滑”、“粗糙”的定义。

步骤三、三维运动环境地图与柔性波动鳍位姿信息共享

现实中水陆两栖机器人不仅需要一个三维环境图，还需要在运动过程中，通过运动的不断变化调整三维环境图，得到一个精确环境地图进行自主的位姿调整变构。而得到准确地图也需有精确位姿为前提，这与定位与地图构建问题本身所要求的同时进行机器人的位姿估计和建图是相矛盾的。需要以激光雷达结合视觉相机为主要传感器，以触觉传感器作为三维环境图细节特征图修正，实现三维环境地图构建。三维环境信息图需要机器人运动后输出各种数据进行变动，也就是说每一时刻的三维环境图都会随着机器人运动而改变。先建立t＝0时刻的三维环境图，随后机器人开始运动，在运动的过程中不断变换三维环境图。将水陆两栖机器人定位与地图构建问题分解为两部分依次解决，先进行水陆两栖机器人定位(即水陆两栖机器人柔性波动鳍t＝0时的初始相位)，后进行环境地图构建，定位与地图构建问题的条件联合概率分布描述为：

p(x_1:t,m|u_1:t,z_1:t)＝p(x_1:t|u_1:t,z_1:t)p(m|x_1:t,z_1:t) (4)

式中，p(x_1:t|u_1:t,z_1:t)为t时刻水陆两栖机器人的位姿估计，p(m|x_1:t,z_1:t)为t时刻地图构建的闭式计算。

采用粒子滤波来估计水陆两栖机器人t时刻的位姿：

p(x_1:t|u_1:t,z_1:t)＝ηp(z_t|x_t)p(x_t|x_t-1,u_t)p(x_1:t-1|z_1:t-1,u_1:t-1) (5)

式中，p(z_t|x_t)为观测模型，p(x_t|x_t-1,u_t)为水陆两栖机器人运动学模型，p(x_1:t-1|z_1:t-1,u_1:t-1)为水陆两栖机器人t-1时刻的轨迹，η为位姿估计参数。

机器人运动和地图构建二者相互辅助建立的过程用数学中条件联合概率来表示，就是在一个运动过程中里面含有机器人运动的位姿估计和对应时刻的建图，而机器人运动的位姿估计依托时间，机器人的概率需要t-1时刻、t时刻的位姿综合变化来得到准确t时刻的最终变化值。移动机器人通过传感器感知环境和自身状态，进而实现在有障碍物的环境中面向目标自主运动。而定位则是确定移动机器人在工作环境中相对于全局坐标的位置及其本身的姿态，是移动机器人导航的基本环节，所以机器人运动是有轨迹位姿的，在机器人开始运动时会既定一个轨迹路线。

在三维运动环境图中根据图中上下文、颜色等不同，采用语义分割的方法，根据视觉图像、激光雷达点云、触觉传感器的输入预测每一个点的语义标签，比如三维运动环境图中一个点或者一块区域对应的是一个石头还是路面，通过给定的带有标签的原域训练一个语义分割的网络，它能够转移到无标记的目标域，如此可使水陆两栖机器人能够对三维运动环境图进行场景解析，达到认知环境的作用。

根据水陆两栖机器人位姿定位跟踪，在三维环境图中每一帧进行更新变化，达到三维环境图与柔性波动鳍位姿变化信息共享，从而提供给水陆两栖机器人对实况路面的精准感知。

步骤四、水陆两栖机器人通过多传感器输出的数据，根据三维环境地图实时识别地况，采用迁移学习进行教师-学生训练柔性波动鳍自主变构。

针对实时动态复杂环境建模构图，在两栖登陆的水下航行阶段，水陆两栖机器人依靠柔性波动鳍上的触觉传感器实时监控不同阻力系数、流体速度等信息，根据数据信息进行构型调整，确保自身的稳定性。阻力与流速的平方成正比，与流体密度和流体的横截面积成正比，与阻力系数成正比，阻力越大其压力数据越大。在两栖登陆阶段，水陆两栖机器人通过触觉传感器感知环境压力变化，采用教师政策训练，可以访问机器人运动的三维环境建模构图信息，指导水陆两栖机器人根据实况地形进行变构，教师制定的政策用来指导学生的。通过三维环境信息图让机器人知道自己目前处在什么环境中，再根据以前训练的环境数据信息进行与环境相对应的变构形态。按照迁移学习的机理，采用时间卷积网络，其接收一系列本体感受观察即对外界环境信息的感知，如视觉传感器的图像、激光雷达的点云以及压力传感器的数据作为输入。时间卷积网络为机器人对信息的接收，对每一个时间的环境信息增加其逻辑连贯性。机器人基于本体感受状态的扩展历史产生驱动，并从本体感受历史中对接触和运动事件进行推理变构。通过储存的训练的数据信息，在识别出环境信息时开始做出判断，判断所处环境应该使用何种姿态进行驱动；通过训练的数据，使机器人了解到什么环境时做什么状态的运动，根据对以往在该环境下如何运动通过，本次运动也根据感知环境进行自主变构。根据各个传感器感知到的数据与数据库的环境进行对比，通过对比分析出现在所处环境地形是什么样的。

当水陆两栖机器人在粗糙程度不同的环境下行驶时，需要针对具体环境特征进行柔性波动鳍的水平或垂直变构，即柔性波动鳍是展开还是竖直运动，水平变构是与地面的接触面积变大，竖直变构是与地面的接触面积较小。如图3和图4所示。针对以上问题，本发明采用迁移学习的思维进行教师-学生训练柔性波动鳍自主变构。首先，水陆两栖机器人从所建立完成的实时三维环境图中识别实况地形，如光滑的冰面、平坦的路面、水中、滩涂等。然后，针对不同的地形进行教师指导构型调整。

具体如下：

(1)设置场景初始柔性波动鳍波动方程为教师指导变构。

当场景为光滑的冰面时，设定冰面场景为ω_ice，柔性波动鳍初始运动方程为：

式中，参数d和l是鳍面的空间坐标，A(v,o)_ice为冰面柔性波动鳍的幅值，λ_o为柔性波动鳍波长，T₀为柔性波动鳍的运动周期，t为柔性波动鳍的运动时刻，a_ice和b_ice为冰面幅值参数。ω为环境场景分类，现实环境中压力参数在一定范围[0,ψ]内可以容错环境信息，ψ表示承受最大压力值，超出会对波动鳍造成影响，A(v,o)_ice、λ₀、T₀值在确定环境场景中根据环境差异进行变化。z表示波动鳍在时间t的运动方程。

当场景为平坦的路面时，设定路面场景为ω_pavement，柔性波动鳍设为水平构型Θ_level(如图3)，初始运动方程为：

当场景为水中时，设定水中场景为ω_water，柔性波动鳍设为水平构型Θ_level(如图3)，初始运动方程为：

当场景为滩涂时，设定滩涂场景为ω_sand，柔性波动鳍设为垂直构型Θ_vertical(如图4)，初始运动方程为：

(2)水陆两栖机器人进行学生学习柔性波动鳍构型调整。

当水陆两栖机器人进行未知场景运动时，若水陆两栖机器人在实时三维环境图上通过水下相机观测场景为路面场景P，触觉传感器感知环境数据为路面场景P，但激光雷达感知数据为冰面场景I，此时需要处理器判定自身所处环境，水陆两栖机器人根据教师指导策略对所收集的信息与数据库的信息数据库比对判断自身所处环境，以多传感器最终结果判定为路面场景P，然后调取路面场景P下水陆两栖机器人构型。将式(7)作为柔性波动鳍构型调整为路面初始构型状态。处理器就是控制器，需要对环境进行判断，识别和做出反应。

由触觉传感器输出的压力值ψ⁺较高，综合实时三维环境图的信息，确定场景为Pψ⁺型环境，即粗糙路面场景。此时水陆两栖机器人通过自学习，在水平构型的基础上根据路面情况调整幅值A(x,y)_pavemeni、波长λ、周期T的值，进行柔性波动鳍的环境自适应运动，柔性波动鳍波动方程为：

通过教师-学生策略训练水陆两栖机器人，让其知道在面对不同场景下水陆两栖机器人该如何进行构型调整。如果水陆两栖机器人遇到训练过的场景，可以直接调取柔性波动鳍变构记忆信息。对反馈的数据进行快速处理，通过堆叠更多的卷积层、使用更大的膨胀系数及增大滤波器大小，更好的控制模型记忆的长短。如果水陆两栖机器人遇到与训练的场景参数相差很大，使用时间卷积网络对本体感受状态扩展，利用马尔可夫决策过程判断决策鳍点的位姿变化：其过程由状态空间s、动作空间ζ、标量回报函数和转移概率P(s_t+1∣s_t,ζ_t)定义，在策略π(ζ_t|s_t)中选择一个动作，并从环境中接收一个奖励r_t，目标是找到一个最优策略π^*在无限的时间范围内最大化奖励，通过这些奖励函数让水陆两栖机器人在遇到没有训练过得标准场景下依旧能完成环境自适应变构，从而进行水陆两栖机器人柔性波动鳍的变构调整。其中，s_t为在t时刻的状态空间，s_t+1为t+1时刻的状态空间，ζ_t为t时刻的动作空间。

步骤五、水陆两栖机器人面对突发环境变化被迫更改预设轨迹时，基于过渡动作生成部分多鳍点运动，以确保机器人稳定运动。

当水陆两栖机器人根据三维环境信息判断前方有障碍物或湍流等突发环境时，水陆两栖机器人的柔性波动鳍需要根据环境变换进行部分部位的变动，为使水陆两栖机器人平稳运动增加其运动鲁棒性，使得机器人可以顺利通过障碍物。针对以上问题，本发明提出基于过渡动作生成的部分多鳍点运动，根据多传感器感知到的环境信息，对于干扰区域进行柔性波动鳍部分部位的变动，以点成面带动水陆两栖机器人柔性波动鳍的变动，使得水陆两栖机器人遇到障碍物或湍流等突发环境问题时可以顺利通过。

柔性波动鳍与鳍点的位置关系如图5所示。鳍点同样也是基于周期性运动，水陆两栖机器人柔性波动鳍鳍点在t时刻的波动轨迹为：

其中，参数d和l是鳍点的空间坐标，θ_m是鳍点运动幅值，T是鳍点运动周期，λ是行波波长，φ是鳍点运动相位差，其周期相位变量φ_i∈[0,2π]。无量纲系数r_y和r_z用于调节运动坐标。p_x(d,s,t)、p_y(d,s,t)、p_z(d,s,t)分别表示柔性波动鳍t时刻在x轴、y轴、z轴的曲线方程，即鳍点在t时刻的位置信息。通过传感器测量的数据来规划鳍点的位置信息，然后利用轨迹生成得到能够顺利通过该地形的波动方程。

如果遇到障碍物等影响正常运动时，此时水陆两栖机器人需要绕行或者变换振幅使其正常通过。当水陆两栖机器人遇到小型障碍物部分鳍点被迫变动时(即柔性波动鳍各个鳍点位置未到达波动轨迹方程指定位置)，此时水陆两栖机器人判定遇到障碍物阻碍正常波动，需调整个别鳍点的位置。被迫变动部位后面的鳍点为完成一个柔性波动鳍的周期运动，需要采用策略调制轨迹生成器架构来提供运动生成的先验，通过基于长短期记忆网络的鳍点循环过渡网络策略合成剩余柔性波动鳍相位和运动基元。当动作不稳定时，通过分析每个鳍点的位置目标。利用控制器来跟踪鳍点的位置目标，最大限度的提高计算效率，重复使用现有的控制制动进行数据传输。通过训练计算得出在该情况下鳍点应该如何波动。

使用策略调制鳍点轨迹生成器架构来提供鳍点运动生成的先验调节控制器，实现包括每个鳍点轨迹生成器和一个鳍点循环过渡网络策略。通过强化学习与神经网络相结合，神经网络策略合成残差位置，以此来调整鳍点相位的运动。通过比例微分控制器建立鳍点相对位置动力学模型，将策略由模拟转变为现实，从而达到鳍点轨迹生成。

鳍点轨迹生成器是一个函数它输出每个柔性波动鳍的鳍点位置目标。当第一个鳍点的函数f_i不为零时，策略调制轨迹生成器驱动垂直步进运动。该策略输出f_i和目标鳍点位置残差并且第i个鳍点的目标位置是：

每个时间t，

φ_i×(φ_i,0+(f₀+f_i)t) (13)

使用解析逆运动学和鳍点位置控制来完成跟踪控制。通过反向动力学和鳍点位置控制来完成。由控制器输入命令向量和一系列的本体感觉。然后定义一个周期相位变量，鳍点变现的为周期运动，通过控制器跟踪每个鳍点的位置目标。首先在机器人基础框架中表示，并且使用解析运动学计算鳍点位置目标；然后由鳍点位置控制器跟踪。使用解析运动学的主要原因是为了最大化计算效率，并重新使用现有的位置控制致动器模型进行模拟到现实的转换。通过机器人运动对鳍点的波动方程进行跟踪。通过反向动力学和鳍点位置控制来完成鳍点剩余位置命令，模拟柔性波动鳍周期和振幅基元，通过控制器跟踪每个鳍点的位置目标，进行部分路段的轨迹变动，柔性波动鳍上的鳍点进行跟随运动，从而确定柔性波动鳍的波动，使机器人可以快速稳定的到达指定地点。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向水陆两栖机器人的环境自适应变构方法，其特征在于，其步骤为：

2.根据权利要求1所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，所述多传感器包括水下相机、激光雷达和触觉传感器，触觉传感器安装在柔性波动鳍末端与地面接触部位，输出数据为压力数据；水下相机安装在水陆两栖机器人前端，可以在路面、水中进行图像采集，输出数据为图像数据；激光雷达安装在水陆两栖机器人机体上方，通过发射激光来测量周围事物的距离，输出数据为点云数据；

3.根据权利要求1或2所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，在水下相机、激光雷达和触觉传感器同步的情况下，进行外参标定，通过水下相机与激光雷达3显示环境中共有事物特征进行3D-3D点对匹配，用刚体的平移变换和旋转变换来描述三维的激光雷达和水下相机在空间中的相对位置关系，在相对位置关系的基础上，由多传感器时间同步输出数据修正，在每个时间点值加入压力值数据，最终实现多传感器数据融合；原理为：

4.根据权利要求1所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，在运动过程中，通过运动的不断变化调整三维运动环境地图，得到一个精确环境地图进行自主的位姿调整变构，以激光雷达结合水下相机为主要传感器，以触觉传感器作为三维环境图细节特征图修正，实现三维环境地图构建；将水陆两栖机器人定位与地图构建问题分解为两部分：先进行水陆两栖机器人定位即水陆两栖机器人柔性波动鳍t＝0时的初始相位，后进行环境地图构建，定位与地图构建问题的条件联合概率分布为：

p(x_1:t,m|u_1:t,z_1:t)＝p(x_1:t|u_1:t,z_1:t)p(m|x_1:t,z_1:t)

p(x_1:t|u_1:t,z_1:t)＝ηp(z_t|x_t)p(x_t|x_t-1,u_t)p(x_1:t-1|z_1:t-1,u_1:t-1)

5.根据权利要求1、2、4所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，在两栖登陆阶段，水陆两栖机器人通过触觉传感器感知环境压力变化，采用教师政策训练，访问机器人运动的三维环境信息，指导水陆两栖机器人根据实况地形进行柔性波动鳍自主变构，教师制定的政策用来指导学生；按照迁移学习的机理，采用时间卷积网络接收一系列水下相机的图像数据、激光雷达的点云数据以及压力传感器的压力数据作为输入，机器人基于本体感受状态扩展历史产生驱动，并从本体感受历史中对接触和运动事件进行推理变构；通过储存的训练的数据信息，在识别出环境信息时开始做出判断，判断所处环境应该使用何种姿态进行驱动；通过训练的数据，根据各个传感器感知到的数据与数据库的环境进行对比，根据感知环境进行自主变构；水陆两栖机器人从所建立完成的实时三维环境图中识别实况地形，针对不同的地形进行教师指导构型调整。

6.根据权利要求5所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，设置场景初始柔性波动鳍波动方程为教师指导变构：

式中，参数d和l是鳍面的空间坐标，A(v,o)_ice为冰面柔性波动鳍的幅值，λ_o为柔性波动鳍波长，T₀为柔性波动鳍的运动周期，t为柔性波动鳍的运动时刻，a_ice和b_ice为冰面幅值参数；ω为环境场景分类，现实环境中压力参数在范围[0,ψ]内可以容错环境信息，ψ表示承受最大压力值，A(v,o)_ice、λ₀、T₀值在确定环境场景中根据环境差异进行变化，z表示波动鳍在时间t的运动方程；

当场景为平坦的路面时，设定路面场景为ω_pavement，柔性波动鳍设为水平构型Θ_level，初始运动方程为：

A(v,o)_pavement＝a_pavemento(v+b_pavement)

当场景为水中时，设定水中场景为ω_water，柔性波动鳍设为水平构型Θ_level，初始运动方程为：

A(ν,o)_water＝a_watero(veb_water)

7.根据权利要求6所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，当水陆两栖机器人进行未知场景运动时，若水陆两栖机器人在实时三维环境运动图上通过水下相机观测场景为路面场景P，触觉传感器感知环境数据为路面场景P，但激光雷达感知数据为冰面场景I，此时需要处理器判定自身所处环境，水陆两栖机器人根据教师指导策略对所收集的信息与数据库的信息数据库比对判断自身所处环境，以多传感器最终结果判定为路面场景P，然后调取路面场景P下水陆两栖机器人构型；将柔性波动鳍构型调整为路面初始构型状态；

A(v,o)_pavement＝a_pavemento(v+b_pavement)

8.根据权利要求6或7所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，通过教师-学生策略训练水陆两栖机器人，如果水陆两栖机器人遇到训练过的场景，可直接调取柔性波动鳍变构记忆信息；如果水陆两栖机器人遇到与训练的场景参数相差很大，使用时间卷积网络对本体感受状态扩展，利用马尔可夫决策过程判断决策鳍点的位姿变化：其过程由状态空间s、动作空间ζ、标量回报函数和转移概率P(s_t+1∣s_t,ζ_t)定义，在策略π(ζ_t|s_t)中选择一个动作，并从环境中接收一个奖励r_t，目标是找到一个最优策略π^*在无限的时间范围内最大化奖励，通过奖励函数让水陆两栖机器人在遇到没有训练过得标准场景下依旧能完成环境自适应变构，从而进行水陆两栖机器人柔性波动鳍的变构调整；其中，s_t为在t时刻的状态空间，s_t+1为t+1时刻的状态空间，ζ_t为t时刻的动作空间。

9.根据权利要求8所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，基于过渡动作生成的部分多鳍点运动根据多传感器感知到的三维环境信息，对于干扰区域进行柔性波动鳍部分部位的变动，以点成面带动水陆两栖机器人柔性波动鳍的变动，使得水陆两栖机器人遇到障碍物或湍流等突发环境问题时可以顺利通过；

10.根据权利要求9所述的面向水陆两栖机器人的环境自适应变构方法，其特征在于，当水陆两栖机器人遇到小型障碍物部分鳍点被迫变动时即柔性波动鳍各个鳍点位置未到达波动轨迹方程指定位置，水陆两栖机器人判定遇到障碍物阻碍正常波动，需调整个别鳍点的位置，被迫变动部位后面的鳍点为完成一个柔性波动鳍的周期运动，采用策略调制轨迹生成器架构来提供运动生成的先验，通过基于长短期记忆网络的鳍点循环过渡网络策略合成剩余柔性波动鳍相位和运动基元；当动作不稳定时，通过分析每个鳍点的位置目标，利用控制器来跟踪鳍点的位置目标，通过训练计算得出在该情况下鳍点应该如何波动；