CN109947131A

CN109947131A - 一种基于强化学习的多水下机器人编队控制方法

Info

Publication number: CN109947131A
Application number: CN201910274101.0A
Authority: CN
Inventors: 闫敬; 李鑫; 杨晛; 公雅迪; 罗小元
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-06-28

Abstract

本发明公开了一种基于强化学习的多水下机器人编队控制方法，涉及水下机器人控制领域。本发明中，水下机器人编队中的各机器人节点获取自身位置后，控制中心给出虚拟领导者的轨迹信息，并发送至虚拟领导者的邻居节点；水下机器人节点之间建立拓扑通信网络，每个水下机器人节点只和邻居节点进行通信保持编队稳定；水下机器人编队使用当前控制策略追踪轨迹，每个节点通过和环境以及邻居节点进行交互计算一步代价函数，通过令价值函数最小改进当前的控制策略，在价值迭代和策略改进两个步骤都达到收敛时，水下机器人追踪期望轨迹的控制策略达到最优，使用最优控制策略达到准确追踪的目标。

Description

一种基于强化学习的多水下机器人编队控制方法

技术领域

本发明涉及水下机器人控制领域，具体涉及一种基于强化学习的多水下机器人编队控制方法。

背景技术

随着海洋资源应用的日益广泛，水下机器人控制技术得到了空前的发展。水下机器人在海洋中的一个重要应用就是轨迹追踪，但单个水下机器人往往追踪效率低，追踪误差会累计增大，对于一些特殊任务，需要水下机器人编队协同进行任务，但水下环境复杂多变，水下机器人模型参数难以准确获取，机器人编队控制难度大。

在现有技术中，公开号为CN107748566A，名称为：一种基于强化学习的水下自主机器人固定深度控制方法，公开了一种基于强化学习的水下机器人固定深度控制方法。该方法构建了水下自主机器人固定深度控制的马尔科夫决策过程模型，得到水下机器人在固定深度的状态变量，控制变量，一步损失函数，并分别建立了决策网络和评价网络，利用强化学习方法得到最终的水下机器人决策网络，达到控制水下机器人的目的。但此发明仅考虑了单个水下机器人的固定深度控制，自由度较少，难以依靠单个水下机器人高效地执行一些特殊和复杂任务，对于需要水下机器人协同工作的任务，必须使用水下机器人的编队控制方法。

再有，公开号为CN109062229A，名称为：基于双目视觉的水下机器人系统的领航跟随编队方法，公开了一种基于双目视觉的水下机器人系统的领航跟随编队方法。该方法的水下机器人系统包括两个以上设置有双目摄像头的水下机器人，采用串级分层结构设计，上一级的水下机器人是其下一级水下机器人的领航机器人，按照设定的编队队形完成水下机器人的编队控制。该方法能够有效解决水下机器人在水下弱通信环境或无通信环境中的编队困难的问题。但水下环境复杂多变，浪涌、摇摆和升沉等影响很有可能使得水下机器人的视觉造成严重影响，从而使得编队控制无法完成。

发明内容

本发明的目的在于克服上述不足，提出一种基于强化学习的多水下机器人编队控制方法，在准确追踪目标轨迹的同时能够减少通信能耗和保证编队的稳定，利用水下机器人对环境的学习实现最优追踪策略。

为实现上述目的，本发明采用下述技术方案：

一种基于强化学习的多水下机器人编队控制方法，所述控制方法包括以下步骤：

步骤1、将带有定位装置的水下机器人组成水下机器人编队，控制中心将期望轨迹发送至每个水下机器人，定义期望轨迹为虚拟领导者；并在各个水下机器人之间进行组网通信，建立水下机器人编队的拓扑通信结构G＝(V,ξ,A)；其中，G是各个水下机器人节点组成的带权有向图，V＝{v₁,v₂,...,v_N}是水下机器人各个节点的集合，ξ＝{e_ij＝(v_i,v_j)}∈V×V是有向图的有向边集，A＝[a_ij]代表具有非负邻接元素a_ij的加权邻接矩阵，且a_ij≥0；

步骤2、水下机器人编队中水下机器人节点v_i在时刻t的自身位置为p_i(t)＝[x_i(t),y_i(t),z_i(t)]^T，虚拟领导者位置为p_r(t)＝[x_r(t),y_r(t),z_r(t)]^T令机器人节点v_i在时刻t+1的一步代价为

其中，代表追踪误差的代价，u_i是水下机器人节点v_i的控制器输入，u_j代表邻居节点对机器人节点v_i的输入，A_i,B_i,C_i均为正定矩阵；建立价值函数：

V_i(p_i(t))＝g_i(p_i(t),u_i(t),u_(j)(t))+γV_i(p_i(t+1))

式中，γ∈(0,1)是折扣因子；

步骤3、令V_i＝W_i ^TΦ_i(p_i)，使用迭代权重的方法获得控制方法的价值模型：

式中，p(t+1)代表时刻t+1的水下机器人状态，为基向量，是基向量中关于水下机器人节点位置的元素，W是权重向量，W^k+1表示水下机器人编队完成一次追踪后进行价值模型的权重更新，通过最小二乘法迭代求解；

步骤4、令u_i(p_i)＝U_i ^Tσ_i(p_i)，其中基函数σ_i(p_i(t))＝[κ_1,i(p_i(t)),κ_2,i(p_i(t)),...,κ_L,i(p_i(t))]，κ_i(p_i(t))是基向量中关于水下机器人节点位置的元素，权重向量U用梯度下降法进行更新，利用最小时的价值函数时对控制策略进行改进，以此得到在追踪过程中最优的控制策略：

其中，u(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作，将h(p)作为最优控制策略；

步骤5、利用迭代权重的方法对控制方法的价值模型更新，和控制策略改进两个过程的同时收敛，完成对当前状态下最优控制策略的求解；

步骤6、将步骤1中利用定位装置获得的真实位置输入到步骤2中，经过步骤4-5操作，获取下一步的最优控制策略；重复循环重复步骤6的操作，完成水下机器人的追踪任务。

进一步的技术方案在于，在步骤1中，建立水下机器人编队的拓扑通信结构G＝(V,ξ,A)，其具体内容如下：

拓扑结构图的每一条边e_ij表示水下机器人节点v_i和节点v_j在通信过程中的链路；当且仅当e_ji＝(v_j,v_i)∈ξ时，a_ij>0，它代表水下机器人节点v_i可以从节点v_j接收信息；否则，a_ij＝0；令b_i>0表示且当且仅当水下机器人节点v_i是虚拟领导者的邻居节点，否则b_i＝0；水下机器人节点v_i的邻居节点表示为M_i＝{v_j:(v_j,v_i)∈ξ}。

进一步的技术方案在于，在步骤5中，价值模型更新和控制策略改进两个过程需要循环迭代至收敛，其内容如下：

当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时，视为收敛，迭代完成的u(p)作为控制器的最优策略输入至水下机器人，完成轨迹追踪任务。

与现有技术相比，本发明具有如下优点：

1、运用构建拓扑结构图的方式组成多水下机器人编队的通信网络，通过水下机器人节点和邻居节点的通信，能够有效保持编队的稳定并且降低通信能耗。

2、运用强化学习的方法控制水下机器人编队完成任务，综合了最优控制和智能学习的优点，利用水下机器人节点与环境的交互寻求最优控制策略。利用环境信息和邻居节点信息，通过价值更新和策略迭代两个过程实现水下机器人编队的在线学习，不要求精确的机器人模型参数，能够找到追踪期望轨迹的最优控制策略，实现多水下机器人编队的智能追踪。

附图说明

图1是本发明的多水下机器人编队控制流程图；

图2是本发明的水下移动传感器网络；

图3是本发明实施例中的多水下机器人编队拓扑结构图；

图4是本发明实施例中的多水下机器人编队拓扑结构图。

具体实施方式

下面结合附图对本发明做进一步说明：

如图1所示，本发明方法包括以下步骤：

步骤一如图2所示，在水面设置有浮标继电器，带有定位装置的水下机器人编队在水下通过浮标继电器进行自定位，将期望轨迹设置为水下机器人编队的虚拟领导者，并由控制中心发送至每个水下机器人。为了减小水下机器人编队的追踪误差并提高效率，各个水下机器人之间需要进行组网通信。

步骤二为了组成水下机器人节点之间在运行过程中的组网通信网络，建立水下机器人编队的拓扑通信结构G＝(V,ξ,A)。其中，G是各个水下机器人节点组成的带权有向图，V＝{v₁,v₂,...,v_N}是水下机器人各个节点的集合，ξ＝{e_ij＝(v_i,v_j)}∈V×V是有向图的有向边集，A＝[a_ij]代表具有非负邻接元素a_ij的加权邻接矩阵，且a_ij≥0。拓扑结构图的每一条边e_ij表示水下机器人节点v_i和节点v_j在通信过程中的链路。当且仅当e_ji＝(v_j,v_i)∈ξ时，a_ij>0，表示水下机器人节点v_i可以从节点v_j接收信息；否则，a_ij＝0。令b_i>0表示且当且仅当水下机器人节点v_i是虚拟领导者的邻居节点，否则b_i＝0。水下机器人节点v_i的邻居节点表示为M_i＝{v_j:(v_j,v_i)∈ξ}。每个水下机器人节点在轨迹追踪过程中选择距离较近的节点进行通信，以此保证编队的稳定和能耗的节省。

步骤三建立水下机器人之间的通信连接后,水下机器人编队使用初始的控制策略按照期望轨迹移动并对环境信息进行在线学习。水下机器人节点v_i在t时刻的自身位置为p_i(t)＝[x_i(t),y_i(t),z_i(t)]^T，虚拟领导者位置为p_r(t)＝[x_r(t),y_r(t),z_r(t)]^T。水下机器人节点v_i在不同状态下通过和环境以及邻居节点v_j的交互，计算得到时刻t+1的一步代价为函数其中代表追踪误差的代价，u_i是水下机器人节点v_i的控制器输入，u_j代表邻居节点对机器人节点v_i的输入，A_i,B_i,C_i均为正定矩阵。利用代价函数进行价值函数更新，从而评价当前控制策略的好坏。为了学习到水下机器人编队轨迹追踪过程中的环境信息和邻居节点信息，建立以下价值函数：

V_i(p_i(t))＝g_i(p_i(t),u_i(t),u_(j)(t))+γV_i(p_i(t+1))

式中，γ∈(0,1)是折扣因子。在价值更新过程中，令V_i＝W_i ^TΦ_i(p_i)，使用迭代权重的方法获得控制方法的价值模型：

式中，p(t+1)代表时刻t+1的水下机器人状态，为基向量，是基向量中关于水下机器人节点位置的元素，W是权重向量，W^k+1表示水下机器人编队完成一次追踪后进行价值函数的权重更新，通过最小二乘法迭代求解。令u_i(p_i)＝U_i ^Tσ_i(p_i)，其中基函数σ_i(p_i(t))＝[κ_1,i(p_i(t)),κ_2,i(p_i(t)),...,κ_L,i(p_i(t))]，κ_i(p_i(t))是基向量中关于水下机器人节点位置的元素，权重向量U用梯度下降法进行更新，利用最小时的价值函数时对控制策略进行改进，以此得到在追踪过程中更优的控制策略：

其中，u(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作，将h(p)作为最优控制策略。

步骤四利用迭代权重的方法对控制方法的价值模型更新，和控制策略改进两个过程的同时收敛，完成对当前状态下最优控制策略的求解。

价值迭代和策略改进两个过程，当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时，视为收敛，迭代完成的u(p)作为控制器的最优策略输入至水下机器人，完成轨迹追踪任务，达到控制水下机器人编队的目的。

步骤五将步骤一中利用定位装置获得的真实位置输入到步骤二到四操作，获取下一步的最优控制策略；重复循环重复步骤五的操作，完成水下机器人的追踪任务。

下面给出2个具体实施例进行说明：

第1个实施例是含有两个水下机器人节点的编队：

(1)如图2所示，在给定长50m，宽50m，深10m的水域内，部署如图3拓扑结构图所示的多水下机器人编队，V＝{v₁,v₂}，虚拟领导者编号为“0”并设置为：x_r(t)＝20sin(0.1t)，y_r(t)＝0.5t，z_r＝-1，并发送至水下机器人节点v₁和v₂。

(2)用强化学习方法对水下机器人编队进行控制，在节点v_i的价值函数V_i(p_i(t))＝g_i(p_i(t),u_i(t),u_(j)(t))+γV_i(p_i(t+1))中，设折扣因子γ＝0.9，A_i＝diag(2,3.5,0)，B_i＝diag(0.8,0.5,0)以及C_i＝diag(1.3,0.5,0)。用迭代权重的方式求得价值函数，令V_i＝W_i ^TΦ_i(p_i)，则价值函数变为其中基函数设置为Φ_i(p_i(t))＝[1,e_i(t),||e_i(t)||]，权重向量W_i利用最小二乘法进行更新。得到价值函数后，在策略改进步骤中，同样设置基函数和权重向量的方式求解最优控制策略，令u_i(p_i)＝U_i ^Tσ_i(p_i)，其中基函数σ_i(p_i(t))＝[1,e_i(t)]，权重向量U用梯度下降法进行更新，利用最小时的价值函数时对控制策略进行改进，以此得到在追踪过程中更优的控制策略：

以此，水下机器人编队的控制策略u_i(p)通过学习到的信息进行更新。

(3)价值迭代和策略改进两个过程，当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时，视为收敛，迭代完成的u_i(p(t))作为控制器的最优控制策略输入至水下机器人，完成轨迹追踪任务，达到控制水下机器人编队的目的。

(4)将定位装置获得的真实位置输入到步骤(2)到(3)操作，获取下一步的最优控制策略；重复循环步骤(4)的操作，完成水下机器人编队的追踪任务。

第2个实施例是含有五个水下机器人节点的编队：

(1)如图4所示，在给定长50m，宽50m，深10m的水域内，部署如图4拓扑结构图所示的多水下机器人编队，V＝{v₁,v₂,v₃,v₄,v₅}，虚拟领导者编号为“0”并设置为：x_r(t)＝20(cos(0.1t)+sin(0.2t))，y_r(t)＝0.4t，z_r＝-5，并发送至水下机器人节点v₁，v₂和v₄。其中v₂发送自身位置信息给v₃和v₄，v₄接收v₂的信息并发送自身信息给v₅。v₃和v₅只进行信息的接收。

(2)用强化学习方法对水下机器人编队进行控制，在节点v_i的价值函数V_i(p_i(t))＝g_i(p_i(t),u_i(t),u_(j)(t))+γV_i(p_i(t+1))中，设折扣因子γ＝0.85，A₁＝diag(2,3.5,0)，B₁＝diag(0.8,0.5,0)，C₁＝diag(1.3,0.5,0)，A₂＝diag(0.9,1.5,0)，B₂＝diag(2,1.2,0)，C₂＝diag(2.9,0.4,0)，A_3,4,5＝diag(2,3.5,0)，B_3,4,5＝diag(0.8,0.5,0)以及C_3,4,5＝diag(1.3,0.5,0)。用迭代权重的方式求得价值函数，令V_i＝W_i ^TΦ_i(p_i)，则价值函数变为其中基函数设置为Φ_i(p_i(t))＝[1,e_i(t),||e_i(t)||]，权重向量W_i利用最小二乘法进行更新。得到价值函数后，在策略改进步骤中，同样设置基函数和权重向量的方式求解最优控制策略，令u_i(p_i)＝U_i ^Tσ_i(p_i)，其中基函数σ_i(p_i(t))＝[1,e_i(t)]，权重向量U用梯度下降法进行更新，利用最小时的价值函数时对控制策略进行改进，以此得到在追踪过程中更优的控制策略：

(3)价值迭代和策略改进两个过程，当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时，视为收敛，迭代完成的u_i(p(t))作为控制器的最优控制策略分别输入至水下机器人节点v_i，完成轨迹追踪任务，达到控制水下机器人编队的目的。

以上所述的实施仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于强化学习的多水下机器人编队控制方法，所述控制方法包括以下步骤：

V_i(p_i(t))＝g_i(p_i(t),u_i(t),u_(j)(t))+γV_i(p_i(t+1))

式中，γ∈(0,1)是折扣因子；

式中，p(t+1)代表时刻t+1的水下机器人状态，

为基向量，是基向量中关于水下机器人节点位置的元素，W是权重向量，W^k+1表示水下机器人编队完成一次追踪后进行价值模型的权重更新，通过最小二乘法迭代求解；

2.根据权利要求1所述的一种基于强化学习的多水下机器人编队控制方法，其特征在于，在步骤1中，建立水下机器人编队的拓扑通信结构G＝(V,ξ,A)，其具体内容如下：

3.根据权利要求1所述的一种基于强化学习的多水下机器人编队控制方法，其特征在于，在步骤5中，价值模型更新和控制策略改进两个过程需要循环迭代至收敛，其内容如下：

当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时，视为收敛，迭代完成的u(p)作为控制器的最优策略输入至水下机器人，完成水下机器人编队的达到控制。