CN108873687A

CN108873687A - 一种基于深度q学习的智能水下机器人行为体系结规划方法

Info

Publication number: CN108873687A
Application number: CN201810759163.6A
Authority: CN
Inventors: 孙玉山; 冉祥瑞; 张国成; 盛明伟; 万磊; 王力锋; 程俊涵; 焦文龙; 王子楷; 吴凡宇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-11-23
Anticipated expiration: 2038-07-11
Also published as: CN108873687B

Abstract

本发明属于水下机器人技术领域，具体设计一种基于深度Q学习的智能水下机器人行为体系结构规划方法。包括：AUV行为规划体系结构分层设计；基于深度Q学习的行为规划及动作规划策略设计。主要流程为:将AUV的行为规划体系结构划分为“任务‑行为‑动作”三个层次,首先任务分解层将AUV收到的任务指令分解为各个行为，然后行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划，最后动作执行层利用Q学习的方法训练AUV完成最优动作规划，通过控制AUV执行机构产生动作达到目标指令。本方法利用强化学习的方法训练水下机器人，使AUV能够在真实的动态水下环境中实现自主行为规划，省去了大量逻辑编程，提高了水下机器人的智能性。

Description

一种基于深度Q学习的智能水下机器人行为体系结规划方法

技术领域

本发明属于水下机器人技术领域，具体设计一种基于深度Q学习的智能水下机器人行为体系结构规划方法。

背景技术

21世纪是人类大规模开发利用海洋的时期，海洋在国家经济发展格局和对外开放中的作用更加重要，在维护国家主权、安全、发展利益中的地位更加突出，在国家生态文明建设中的角色更加显著，在国际政治、经济、军事、科技竞争中的战略地位也明显上升。而智能水下机器人(AUV)由于其具有体积小、隐蔽性高、作业范围广等特点逐渐成为世界各个海洋大国的研究热点，其在水下管道探测、水下数据采集、水下军事巡逻与侦查、水下目标探测与识别、水下排雷布雷等方面具有广泛的应用。

就目前的研究进展来说，智能水下机器人的体系结构是“任务-动作”的方式，即通过机器人控制系统算法编程控制机器人运动完成相应任务。这种方式对于机器人完成简单任务完全适用，但是当机器人在复杂环境中完成复杂作业任务时，仍需要人为的参与辅助，无法独立完成任务，其在复杂水下环境中行为规划与决策的智能化水平还有一定的不足。

发明内容

本发明的目的在于提供一种基于分层的思想，将智能水下机器人的任务系统进行分层设计形成AUV行为规划体系分层结构，并将深度Q学习算法应用于智能水下机器人载体的控制规划系统中以实现其行为动作规划功能的方法。

一种基于深度Q学习的智能水下机器人行为体系结构规划方法，包括如下步骤：

1.AUV行为规划体系结构分层设计；

2.基于深度Q学习的行为规划及动作规划策略设计。

所述步骤1具体包括：

1.定义智能水下机器人任务、行为和动作的概念：将水下机器人需要完成的工作定义为机器人的任务，如：路径规划、目标跟踪、地形检测、水下搜索等；将机器人在水下航行而产生的具体的控制指令定义为动作，如：左转n度、右转n度、以n节的速度前进等；将水下机器人为了完成任务而产生的一连串动作的集合定义为行为，如：避障、目标搜索、路径跟踪等。

2.将智能水下机器人的行为规划体系结构划分为三个层次：任务分解层、行为规划层、动作执行层。任务分解层将水下机器人收到的任务指令分解为各个行为，行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划，动作执行层利用Q学习的方法训练机机器人动作完成动作规划，通过控制水下机器人执行机构产生动作达到目标指令。

3.确定任务，然后将任务分解为完成该任务所需要的行为集合，根据传感器探测到的周围环境信息以及任务要求进行行为规划并将行为分解为动作，训练机器人产生动作作用于环境，环境产生状态转移并根据状态转移的好坏反馈给机器人奖励值R，通过奖励值R的不断积累并使之达到最大来得到机器人的最优规划策略。

所述步骤2具体包括：

1.设计学习参数

1.1根据不同的任务要求，设计奖惩函数R，R值包括层次之间传递的强化信号R₁以及动作的奖励值R₂。R₁的设计如下：

R₂设计为机器人所产生的动作使得环境状态向完成任务的方向发展得到正奖励，使得环境状态向未完成任务的方向发展得到负奖励；如路径规划任务，设计R₂值为：碰撞障碍物获得负奖励，抵达目标位置得到正奖励，即：

1.2设计动作集合a：以某一速度前进、向左或向右旋转一定角度(0°-90°)、上浮、下潜、后退、停止等；定义行为集合为：目标跟踪、路径跟踪、避障、目标搜索、悬停、定深、定速、定向等；定义任务集合为：区域检测、管道检测、地形扫描、路径规划、坝体扫描、目标追踪、探雷排雷、军事侦察等。

1.3给定任务M，并将其分解为一系列行为的集合{X₀，X₁,…,X_n}，为每个行为定义一个三元组<T_i,A_i,R_i>：

T_i为终止判据，当环境状态属于某种情况时，相应的行为X_i被选择，当环境达到T_i状态时，X_i立即终止；

Ai为完成行为Xi的动作集合，为a的子集；

Ri为奖惩函数，选择正确行为为正值，选择错误行为为负值。

2.建立学习模型

2.1动作-行为学习模型：在仿真环境中训练智能水下机器人动作完成行为。根据当前环境状态选择动作，产生状态迁移并得到奖励值R₂，由Q学习算法，建立算法更新函数为：

Q₁ ^*(s_t,a_t)＝Q₁(s_t,a_t)+α(R₂+γmaxQ₁(s_t+1,a_t+1)-Q₁(s_t,a_t))

式中，s表示状态，a表示动作，R₂为当前状态所对应动作的奖励值，γ为学习参数，根据情况其值在0到1之间取值，如果γ接近0，机器人趋于考虑即时奖励；如果γ接近1，机器人会更加考虑未来的累计奖励，α为学习率，取0.9。

利用神经网络训练计算Q值，将环境状态和(R₂+γmaxQ₁(s_t+1,a_t+1))作为神经网络的输入，将所有动作的值作为神经网络的输出，根据Q学习原理，选择拥有最大值的动作当作下一步要做的动作。

2.2任务-行为学习模型：训练水下机器人行为完成任务。将水下机器人一系列动作的实现而导致其状态的改变视为行为对环境状态的影响，水下机器人动作训练的好怀，将会影响行为的完成情况，从而影响任务的达成。所以，建立水下机器人任务-行为的Q学习模型为：初始化机器人行为，根据当前环境状态，机器人选择行为X，产生状态迁移并得到奖励值R₁，建立Q函数为：

Q₂ ^*(s′_t,X_t)＝V(s′_t,X_t)+Q₂(s′_t,X_t)+α(R₁+γmaxQ₂(s′_t+1,X_t+1)-Q₂(s′_t,X_t))

式中，X_t表示机器人当前所选择的行为，其产生状态迁移并得到奖励值R₁，V(s′_t,X_t)表示系统对完成该行为的一系列动作导致环境状态从s转移到s′的累计评价函数：

式中k为系统调节参数，根据奖励值设置的大小而定。

依然利用神经网络训练计算Q值，将环境状态和(R₁+γmaxQ₂(s_t+1,X_t+1))作为神经网络的输入，将所有行为的值作为神经网络的输出，根据Q学习原理，选择拥有最大值的行为当作下一步要执行的行为。

2.3训练神经网络：

建立损失函数：

通过训练更新网络参数θ使损失函数L最小，以便当前的Q值逼近目标Q值。

一种基于深度Q学习的智能水下机器人行为体系结构规划方法还包括：

为保障机器人安全并得到完备的策略，动作执行层的学习采用离线的方式进行：通过设置训练场景，让机器人在各种环境状态下尝试动作选择，然后根据动作的回报或者动作的好坏评价进行学习。采用强化学习的学习过程让机器人在各种训练场景下进行动作尝试，并根据动作回报来学习最优的动作策略。利用编程软件搭建智能水下机器人的仿真系统，在仿真环境下训练机器人动作完成相应行为。高层的学习基于低层的学习，动作执行层在取得较为理想的效果后，进行高一级层次的学习，高层的学习在考虑低层信息的同时，更多需要考虑机器人当前所处的世界环境信息，根据环境信息学习自身的行为决策策略。

本发明的有益效果在于：

水下机器人的行为规划体系结构自顶向下是一个决策的过程：机器人各层不直接根据环境状态产生相应的指令，而是按照一个从高级到低级的结构划分顺序，逐层进行决策，直至最终确定其所要执行的基本动作指令，能够实现决策的逐步求精；水下机器人的行为规划体系结构自底向上是一个学习的过程：首先是动作执行层学习动作的实现，然后行为规划层学习行为的选择策略，最终通过行为的选择实现总任务，从低级到高级的学习过程符合人类的学习习惯和思维模式。该方法适用于水下动态复杂环境，在遇到没有预想到的情况时，通过学习训练也能够使得机器人完成任务。同时本专利利用强化学习的方法训练水下机器人的动作和行为，省去了大量的逻辑编程的过程，不需要考虑多种情况，让机器人自主航行到相应位置完成相应行为任务，提高了水下机器人的智能性。

附图说明

图1为智能水下机器人行为规划体系结构示意图；

图2为智能水下机器人任务分解示意图；

图3为基于深度Q学习的智能水下机器人行为规划策略流程图。

具体实施方式

下面结合附图对本发明做进一步描述：

如附图1所示，将智能水下机器人的行为规划体系结构划分为三个层次：任务分解层、行为规划层、动作执行层。任务分解层将水下机器人收到的任务指令分解为各个行为，行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划，动作执行层利用Q学习的方法训练机机器人动作完成动作规划，通过控制水下机器人执行机构产生动作达到目标指令。例如：水下机器人收到路径跟踪的任务指令，任务分解层将路径跟踪任务分为直线路径跟踪行为、曲线路径跟踪行为、点跟踪、目标搜索行为、避障行为、返回路径行为；行为规划层根据传感器检测到的周围环境信息，对完成任务所需要的行为进行规划，将规划的行为传递给动作执行层，利用Q学习算法对机器人动作进行训练得到动作的最优策略，动作执行层控制执行机构产生规划的动作。

如附图2所示，根据强化学习的思想，智能水下机器人在水下作业时，首先确定任务，然后将任务分解为完成该任务所需要的行为集合，根据传感器探测到的周围环境信息以及任务要求进行行为规划并将行为分解为动作，训练机器人产生动作作用于环境，环境产生状态转移并根据状态转移的好坏反馈给机器人奖励值R，通过奖励值R的不断积累并使之达到最大来得到机器人的最优规划策略。

如附图3所示，基于深度Q学习的行为及动作规划策略设计步骤为：

1.设计学习参数

Ai为完成行为Xi的动作集合，为a的子集；

2.建立学习模型

Q₁ ^*(s_t,a_t)＝Q₁(s_t,a_t)+α(R₂+γmaxQ₁(s_t+1,a_t+1)-Q₁(s_t,a_t))

式中k为系统调节参数，根据奖励值设置的大小而定。

2.3训练神经网络：

建立损失函数：

本专利的主要目的是让水下机器人在水下环境中根据当前环境状态自主完成决策，从而使人摆脱繁杂的编程过程，其具体实现分为仿真训练过程和真实试验过程。

1.利用编程软件搭建基于深度Q学习的智能水下机器人的行为规划仿真系统，通过仿真训练的得到机器人的最优决策策略，具体步骤如下：

1.1建立环境模型，设定障碍，确定初始位置和目标点，初始化算法参数；

1.2确定当前t时刻环境状态以及机器人任务，将任务分解为相应行为；

1.3根据当前状态选择行为，将行为分解为相应动作；

1.4执行动作a，观察新的状态s′，得到奖励值R₂；

1.5训练神经网络得到各个动作的Q值，按照90％的概率选择最大Q值的动作作为下一个动作，10％的概率随机选择动作；

1.6更新Q₁函数；

1.7判断当前时刻状态，若抵达目标状态，转1.8)；否则转1.4)；

1.8完成所选择的行为，更新Q₂函数；

1.9判断是否完成任务，若是，转1.10)，否则，返回1.3)；

1.10判断Q值是否收敛，若是，结束训练，否则，初始化机器人位置，转1.2)；

2.在智能水下机器人下位机模块搭建行为规划系统，同时将仿真训练得到的策略导入该系统；

3.在真实海洋环境中进行任务试验：

3.1利用水下机器人上位机将任务下达给下位机行为规划系统，对任务进行分层；

3.2根据当前环境状态，选择最大Q₂值的行为；

3.3机器人根据当前环境状态选择最大Q₁值的动作，判断当前状态是否达到终止判据，若是，转3.4，否则转3.3)；

3.4判断当前状态是否达到目标状态，若是，结束，否则转3.2。

Claims

1.一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于，包括以下步骤：

步骤1：AUV行为规划体系结构分层设计；

步骤2：基于深度Q学习的行为规划及动作规划策略设计。

2.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤1定义了智能水下机器人任务、行为和动作的概念，将水下机器人需要完成的工作定义为机器人的任务；将机器人在水下航行而产生的具体的控制指令定义为动作；将水下机器人为了完成任务而产生的一连串动作的集合定义为行为。

3.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤1将智能水下机器人的行为规划体系结构划分为三个层次，任务分解层、行为规划层、动作执行层，任务分解层将水下机器人收到的任务指令分解为各个行为，行为规划层通过获取到的环境信息对完成任务所需要的行为进行规划，动作执行层利用Q学习的方法训练机机器人动作完成动作规划，通过控制水下机器人执行机构产生动作达到目标指令。

4.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤2包括设计奖惩函数R，R值包括层次之间传递的强化信号R₁以及动作的奖励值R₂，R₁设计为

R₂设计为机器人所产生的动作使得环境状态向完成任务的方向发展得到正奖励，使得环境状态向未完成任务的方向发展得到负奖励。

。

5.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤2包括设计动作集合a，以某一速度前进、向左或向右旋转一定角度(0°-90°)、上浮、下潜、后退、停止；定义行为集合为，目标跟踪、路径跟踪、避障、目标搜索、悬停、定深、定速、定向；定义任务集合为，区域检测、管道检测、地形扫描、路径规划、坝体扫描、目标追踪、探雷排雷、军事侦察。

6.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤2包括建立动作-行为学习模型，在仿真环境中训练智能水下机器人动作完成行为，根据当前环境状态选择动作，产生状态迁移并得到奖励值R₂，由Q学习算法，建立算法更新函数为

Q₁ ^*(s_t,a_t)＝Q₁(s_t,a_t)+α(R₂+γmaxQ₁(s_t+1,a_t+1)-Q₁(s_t,a_t))

7.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤2包括建立水下机器人任务-行为的Q学习模型为，初始化机器人行为，根据当前环境状态，机器人选择行为X，产生状态迁移并得到奖励值R₁，建立Q函数为

式中，X_t表示机器人当前所选择的行为，其产生状态迁移并得到奖励值R₁，V(s′_t,X_t)表示系统对完成该行为的一系列动作导致环境状态从s转移到s′的累计评价函数

式中k为系统调节参数，根据奖励值设置的大小来确定。

8.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤2包括训练神经网络，建立损失函数

9.根据权利要求1所述的一种基于深度Q学习的智能水下机器人行为体系结构规划方法，其特征在于：所述步骤1中动作执行层的学习采用离线的方式进行，利用强化学习的学习过程让机器人在各种训练场景下进行动作尝试，并根据动作回报来学习最优的动作策略，动作执行层在取得理想的效果后，进行高一级层次的学习，高层的学习在考虑低层信息的同时，更多考虑机器人当前所处的世界环境信息，根据环境信息学习行为策略。