CN114995468A

CN114995468A - 一种基于贝叶斯深度强化学习的水下机器人智能控制方法

Info

Publication number: CN114995468A
Application number: CN202210633134.1A
Authority: CN
Inventors: 陈然; 李蕾; 陈昱同; 于谌言; 蔡乐周; 王琪皓; 董锦衡; 王向群; 袁银龙; 华亮
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-02
Anticipated expiration: 2042-06-06
Also published as: CN114995468B

Abstract

本发明涉及水下机器人技术领域，尤其涉及一种基于贝叶斯深度强化学习的水下机器人智能控制方法，包括以下步骤：S1、依据水下机器人搭载的传感器系统感知水下环境信息；S2、构建水下机器人贝叶斯深度强化学习智能控制模型；S3、依据交互训练完成水下机器人智能控制模型学习；S4、水下机器人智能控制方法部署应用。本发明能够赋予水下机器人自主学习能力，能够令水下机器人自主完成运动控制，提高水下机器人在水下作业的工作效率。

Description

一种基于贝叶斯深度强化学习的水下机器人智能控制方法

技术领域

本发明涉及水下机器人技术领域，尤其涉及一种基于贝叶斯深度强化学习的水下机器人智能控制方法。

背景技术

海上风电成为新型能源的主导行业，然而海上风电桩的维修成为了一大难题。目前人工水下检修水下工程设备检测及维护，对于传统的人工来说存在安全隐患，所以对于水下机器人进行海上风电桩水下结构件检修方法有着迫切的需求，然而有些水下机器人实施中存在人工控制的局限性。

因此国外学者开展了自主控制方法研究，但是大多需要构建动力学模型，在实际操作中精确的动力学模型是很难获取的。另一方面，许多最新研究成果显示强化学习无需构建运动学模型即可实现机器人的自主运动控制，但鲜有在水下机器人循迹方面应用，为此本发明提供一种基于贝叶斯深度强化学习的水下机器人智能控制方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于贝叶斯深度强化学习的水下机器人智能控制方法，能够赋予水下机器人由浅向深的学习能力，能够令水下机器人自主完成机动规避决策，提高水下机器人自主导航的精准度。

为了实现上述目的，本发明采用了如下技术方案：

一种基于贝叶斯深度强化学习的水下机器人智能控制方法，包括以下步骤：

S1、依据水下机器人搭载的传感器系统感知水下环境信息；

S2、构建水下机器人贝叶斯深度强化学习智能控制模型；

S3、依据交互训练完成水下机器人智能控制模型学习；

S4、水下机器人运动控制方法部署应用。

优选地，在步骤S1中，通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息s_r和感知的外界环境信息s_e，其中

p_x,p_y,p_z分别为机器人的经度、纬度和深度信息，v,

φ分别为机器人的速度、航向角和俯仰角信息，

分别为障碍物相对水下机器人的坐标信息，

为水流速度；s＝f(s_e,s_r)为系统整体的多模态信息，f为基于贝叶斯神经网的多模态信息融合网络，把不同模态信息通过概率化建模进行统一。

优选地，在步骤S2中，将水下机器人智能控制模型建模为贝叶斯深度强化学习模型，其中深度强化学习的状态信息为多模态信息s＝(s_e,s_r)，动作 a＝(a₁,a₂,a₃,a₄,a₅,a₆)为水下机器人6个螺旋桨的转动速度，奖赏函数

其中α，β为大于零的常系数，d₁,d₂分别为水下机器人到目标位置的距离和到障碍物的距离信息，贝叶斯深度强化学习结构包括Actor网络μ、 Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分，其中Actor网络μ为贝叶斯神经网络，Critic网络Q、Actor target网络μ'和 Critictarget网络Q'为人工神经网络，网络Q、μ'和Q'应的网络权重参数分别为θ^Q、θ^μ'和θ^Q'，网络μ的权重参数分布的均值为θ^μ。

优选地，所述步骤S3具体包括如下步骤：

S31：通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个网络，在此基础上初始化任务环境；

S32：通过水下机器人搭载的传感系统实时采样获得水下机器人的多模态信息，包括自身的状态信息s_r和环境状态信息s_e；

S33：对Actor网络μ的权重进行随机抽样n次，依据状态信息s_r和s_e得到水下机器人动作变量

其中

为第i次采样的权重值；

S34：机器人执行动作a，通过水下机器人搭载的传感器系统得到新的状态信息s'_r、新的环境状态信息s'_e，并获得对应的奖赏值r；

S35：将状态信息s_r、s_e、a、r、s'_r、s'_e存储到经验池D中，并通过抽取小批次数据进行训练，更新网络权重参数θ^μ和θ^Q进行更新，在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新，即：

S36：判定整局训练是否结束，如果整局训练结束，则跳转步骤S37，如果整局训练未结束，则跳转到步骤S33；

S37：判定Actor网络μ、Critic网络Q是否收敛，如果收敛，则结束训练，如果未收敛，则跳转到步骤S32，开始新一轮训练。

优选地，在步骤S4中，将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中，启动机器人后，利用搭载的传感器系统获得多模态信息，将该信息输入到深度强化学习Actor网络中，通过多次采样获得控制指令的均值，执行命令更新多模态信息，直到任务结束。

与现有技术相比，本发明具有以下有益效果：

1、本发明能够赋予水下机器人由浅向深的学习能力，能够令机器人在复杂的水下环境中学会自主避障决策，提高水下机器人工作时的安全性和稳定性。

2、本发明可以解决传统控制算法无法应对突发环境变化的情况，利用深度强化学习算法可以提升水下机器人运动控制的灵活性。

3、本发明不仅适合解决静态环境下的避障决策问题，而且也能够应用于水流扰动和实时决策要求较高的工作环境，易于训练和部署，具有更广泛的应用场景。

4、本发明包含环境信息获取、模型构造与训练、模型部署与应用三个方面的内容，系统框架完整可靠，有益于直接部署到相应的水下机器人系统进行快速应用。

附图说明

图1为本发明的整体流程图；

图2为本发明中多模态信息的结构图；；

图3为本发明中深度强化学习模型的结构图；

图4为本发明的交互训练流程图。

具体实施方式

下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种基于贝叶斯深度强化学习的水下机器人智能控制方法，包括以下步骤：

步骤1、依据水下机器人搭载的传感器系统感知水下环境信息；

步骤2、构建水下机器人贝叶斯深度强化学习智能控制模型；

步骤3、依据交互训练完成水下机器人智能控制模型学习；

步骤4、水下机器人运动控制方法部署应用。

参见图1至图4，本发明提供其技术方案的实施步骤如下：

步骤1：如图2所示，通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息s_r和感知的外界环境信息s_e，其中

p_x,p_y,p_z分别为机器人的经度、纬度和深度信息，v,

φ分别为机器人的速度、航向角和俯仰角信息，

分别为障碍物相对水下机器人的坐标信息，

步骤2：构建水下机器人贝叶斯深度强化学习智能控制模型。如图3所示，深度强化学习的状态信息为多模态信息s＝(s_e,s_r)，动作a＝(a₁,a₂,a₃,a₄,a₅,a₆) 为水下机器人6个螺旋桨的转动速度，奖赏函数

其中α，β为大于零的常系数，d₁,d₂分别为水下机器人到目标位置的距离和到障碍物的距离信息，贝叶斯深度强化学习结构包括Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个部分，其中Actor网络μ为贝叶斯神经网络，Critic网络Q、Actor target网络μ'和Critic target网络Q'为人工神经网络，网络Q、μ'和Q'应的网络权重参数分别为θ^Q、θ^μ'和θ^Q'，网络μ的权重参数分布的均值为θ^μ。

本实施例中，可以解决传统控制算法无法应对突发环境变化的情况，利用深度强化学习算法可以提升水下机器人运动控制的灵活性；不仅适合解决静态环境下的避障决策问题，而且也能够应用于水流扰动和实时决策要求较高的工作环境，易于训练和部署，具有更广泛的应用场景。

步骤3：如图4所示，交互训练完成水下机器人智能控制方法学习过程为：

3-1)、通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target 网络μ'和Critic target网络Q'四个网络，在此基础上初始化任务环境；

3-2)、通过水下机器人搭载的传感系统实时采样获得水下机器人的多模态信息，包括自身的状态信息s_r和环境状态信息s_e；

3-3)、对Actor网络μ的权重进行随机抽样n次，依据状态信息s_r和s_e得到水下机器人动作变量

其中

为第i次采样的权重值；

3-4)、机器人执行动作a，通过水下机器人搭载的传感器系统得到新的状态信息s'_r、新的环境状态信息s'_e，并获得对应的奖赏值r；

3-5)、将状态信息s_r、s_e、a、r、s'_r、s'_e存储到经验池D中，并通过抽取小批次数据进行训练，更新网络权重参数θ^μ和θ^Q进行更新，在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新，即：

3-6)、判定整局训练是否结束，如果整局训练结束，则跳转步骤3-7)，如果整局训练未结束，则跳转到步骤3-3)；

3-7)、判定Actor网络μ、Critic网络Q是否收敛，如果收敛，则结束训练，如果未收敛，则跳转到步骤3-3)，开始新一轮训练。

本实施例中，包含环境信息获取、模型构造与训练、模型部署与应用三个方面的内容，系统框架完整可靠，有益于直接部署到相应的水下机器人系统进行快速应用。

步骤4：将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中，启动机器人后，利用搭载的传感器系统获得多模态信息，将该信息输入到深度强化学习Actor网络中，通过多次采样获得控制指令的均值，执行命令更新多模态信息，直到任务结束。

本发明中披露的说明和实践，对于本技术领域的普通技术人员来说，都是易于思考和理解的，且在不脱离本发明原理的前提下，还可以做出若干改进和润饰。因此，在不偏离本发明精神的基础上所做的修改或改进，也应视为本发明的保护范围。

Claims

1.一种基于贝叶斯深度强化学习的水下机器人智能控制方法，其特征在于，包括以下步骤：

S1、依据水下机器人搭载的传感器系统感知水下环境信息；

S2、构建水下机器人贝叶斯深度强化学习智能控制模型；

S3、依据交互训练完成水下机器人智能控制模型学习；

S4、水下机器人运动控制方法部署应用。

2.根据权利要求1所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法，其特征在于，在步骤S1中，通过机器人本体搭载的超声波、摄像机传感系统获取机器人姿态信息s_r和感知的外界环境信息s_e，其中

p_x,p_y,p_z分别为机器人的经度、纬度和深度信息，v,

φ分别为机器人的速度、航向角和俯仰角信息，

分别为障碍物相对水下机器人的坐标信息，

3.根据权利要求1所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法，其特征在于，在步骤S2中，将水下机器人智能控制模型建模为贝叶斯深度强化学习模型，其中深度强化学习的状态信息为多模态信息s＝(s_e,s_r)，动作a＝(a₁,a₂,a₃,a₄,a₅,a₆)为水下机器人6个螺旋桨的转动速度，奖赏函数

其中α，β为大于零的常系数，d₁,d₂分别为水下机器人到目标位置的距离和到障碍物的距离信息，贝叶斯深度强化学习结构包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分，其中Actor网络μ为贝叶斯神经网络，Critic网络Q、Actor target网络μ'和Critic target网络Q'为人工神经网络，网络Q、μ'和Q'应的网络权重参数分别为θ^Q、θ^μ'和θ^Q'，网络μ的权重参数为高斯分布，且其分布的均值为θ^μ。

4.根据权利要求3所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法，其特征在于，所述步骤S3具体包括如下步骤：

S31：通过随机赋值初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critictarget网络Q'四个网络，在此基础上初始化任务环境；

其中

为第i次采样的权重值；

5.根据权利要求4所述的一种基于贝叶斯深度强化学习的水下机器人智能控制方法，其特征在于，在步骤S4中，将步骤S3训练好的贝叶斯深度强化学习模型固化到水下机器人控制系统中，启动机器人后，利用搭载的传感器系统获得多模态信息，将该信息输入到深度强化学习Actor网络中，通过多次采样获得控制指令的均值，执行命令更新多模态信息，直到任务结束。