CN109947131A - 一种基于强化学习的多水下机器人编队控制方法 - Google Patents

一种基于强化学习的多水下机器人编队控制方法 Download PDF

Info

Publication number
CN109947131A
CN109947131A CN201910274101.0A CN201910274101A CN109947131A CN 109947131 A CN109947131 A CN 109947131A CN 201910274101 A CN201910274101 A CN 201910274101A CN 109947131 A CN109947131 A CN 109947131A
Authority
CN
China
Prior art keywords
underwater robot
node
robot
underwater
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910274101.0A
Other languages
English (en)
Inventor
闫敬
李鑫
杨晛
公雅迪
罗小元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN201910274101.0A priority Critical patent/CN109947131A/zh
Publication of CN109947131A publication Critical patent/CN109947131A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的多水下机器人编队控制方法,涉及水下机器人控制领域。本发明中,水下机器人编队中的各机器人节点获取自身位置后,控制中心给出虚拟领导者的轨迹信息,并发送至虚拟领导者的邻居节点;水下机器人节点之间建立拓扑通信网络,每个水下机器人节点只和邻居节点进行通信保持编队稳定;水下机器人编队使用当前控制策略追踪轨迹,每个节点通过和环境以及邻居节点进行交互计算一步代价函数,通过令价值函数最小改进当前的控制策略,在价值迭代和策略改进两个步骤都达到收敛时,水下机器人追踪期望轨迹的控制策略达到最优,使用最优控制策略达到准确追踪的目标。

Description

一种基于强化学习的多水下机器人编队控制方法
技术领域
本发明涉及水下机器人控制领域,具体涉及一种基于强化学习的多水下机器人编队控制方法。
背景技术
随着海洋资源应用的日益广泛,水下机器人控制技术得到了空前的发展。水下机器人在海洋中的一个重要应用就是轨迹追踪,但单个水下机器人往往追踪效率低,追踪误差会累计增大,对于一些特殊任务,需要水下机器人编队协同进行任务,但水下环境复杂多变,水下机器人模型参数难以准确获取,机器人编队控制难度大。
在现有技术中,公开号为CN107748566A,名称为:一种基于强化学习的水下自主机器人固定深度控制方法,公开了一种基于强化学习的水下机器人固定深度控制方法。该方法构建了水下自主机器人固定深度控制的马尔科夫决策过程模型,得到水下机器人在固定深度的状态变量,控制变量,一步损失函数,并分别建立了决策网络和评价网络,利用强化学习方法得到最终的水下机器人决策网络,达到控制水下机器人的目的。但此发明仅考虑了单个水下机器人的固定深度控制,自由度较少,难以依靠单个水下机器人高效地执行一些特殊和复杂任务,对于需要水下机器人协同工作的任务,必须使用水下机器人的编队控制方法。
再有,公开号为CN109062229A,名称为:基于双目视觉的水下机器人系统的领航跟随编队方法,公开了一种基于双目视觉的水下机器人系统的领航跟随编队方法。该方法的水下机器人系统包括两个以上设置有双目摄像头的水下机器人,采用串级分层结构设计,上一级的水下机器人是其下一级水下机器人的领航机器人,按照设定的编队队形完成水下机器人的编队控制。该方法能够有效解决水下机器人在水下弱通信环境或无通信环境中的编队困难的问题。但水下环境复杂多变,浪涌、摇摆和升沉等影响很有可能使得水下机器人的视觉造成严重影响,从而使得编队控制无法完成。
发明内容
本发明的目的在于克服上述不足,提出一种基于强化学习的多水下机器人编队控制方法,在准确追踪目标轨迹的同时能够减少通信能耗和保证编队的稳定,利用水下机器人对环境的学习实现最优追踪策略。
为实现上述目的,本发明采用下述技术方案:
一种基于强化学习的多水下机器人编队控制方法,所述控制方法包括以下步骤:
步骤1、将带有定位装置的水下机器人组成水下机器人编队,控制中心将期望轨迹发送至每个水下机器人,定义期望轨迹为虚拟领导者;并在各个水下机器人之间进行组网通信,建立水下机器人编队的拓扑通信结构G=(V,ξ,A);其中,G是各个水下机器人节点组成的带权有向图,V={v1,v2,...,vN}是水下机器人各个节点的集合,ξ={eij=(vi,vj)}∈V×V是有向图的有向边集,A=[aij]代表具有非负邻接元素aij的加权邻接矩阵,且aij≥0;
步骤2、水下机器人编队中水下机器人节点vi在时刻t的自身位置为pi(t)=[xi(t),yi(t),zi(t)]T,虚拟领导者位置为pr(t)=[xr(t),yr(t),zr(t)]T令机器人节点vi在时刻t+1的一步代价为
其中,代表追踪误差的代价,ui是水下机器人节点vi的控制器输入,uj代表邻居节点对机器人节点vi的输入,Ai,Bi,Ci均为正定矩阵;建立价值函数:
Vi(pi(t))=gi(pi(t),ui(t),u(j)(t))+γVi(pi(t+1))
式中,γ∈(0,1)是折扣因子;
步骤3、令Vi=Wi TΦi(pi),使用迭代权重的方法获得控制方法的价值模型:
式中,p(t+1)代表时刻t+1的水下机器人状态,为基向量,是基向量中关于水下机器人节点位置的元素,W是权重向量,Wk+1表示水下机器人编队完成一次追踪后进行价值模型的权重更新,通过最小二乘法迭代求解;
步骤4、令ui(pi)=Ui Tσi(pi),其中基函数σi(pi(t))=[κ1,i(pi(t)),κ2,i(pi(t)),...,κL,i(pi(t))],κi(pi(t))是基向量中关于水下机器人节点位置的元素,权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制策略进行改进,以此得到在追踪过程中最优的控制策略:
其中,u(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;
步骤5、利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;
步骤6、将步骤1中利用定位装置获得的真实位置输入到步骤2中,经过步骤4-5操作,获取下一步的最优控制策略;重复循环重复步骤6的操作,完成水下机器人的追踪任务。
进一步的技术方案在于,在步骤1中,建立水下机器人编队的拓扑通信结构G=(V,ξ,A),其具体内容如下:
拓扑结构图的每一条边eij表示水下机器人节点vi和节点vj在通信过程中的链路;当且仅当eji=(vj,vi)∈ξ时,aij>0,它代表水下机器人节点vi可以从节点vj接收信息;否则,aij=0;令bi>0表示且当且仅当水下机器人节点vi是虚拟领导者的邻居节点,否则bi=0;水下机器人节点vi的邻居节点表示为Mi={vj:(vj,vi)∈ξ}。
进一步的技术方案在于,在步骤5中,价值模型更新和控制策略改进两个过程需要循环迭代至收敛,其内容如下:
当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时,视为收敛,迭代完成的u(p)作为控制器的最优策略输入至水下机器人,完成轨迹追踪任务。
与现有技术相比,本发明具有如下优点:
1、运用构建拓扑结构图的方式组成多水下机器人编队的通信网络,通过水下机器人节点和邻居节点的通信,能够有效保持编队的稳定并且降低通信能耗。
2、运用强化学习的方法控制水下机器人编队完成任务,综合了最优控制和智能学习的优点,利用水下机器人节点与环境的交互寻求最优控制策略。利用环境信息和邻居节点信息,通过价值更新和策略迭代两个过程实现水下机器人编队的在线学习,不要求精确的机器人模型参数,能够找到追踪期望轨迹的最优控制策略,实现多水下机器人编队的智能追踪。
附图说明
图1是本发明的多水下机器人编队控制流程图;
图2是本发明的水下移动传感器网络;
图3是本发明实施例中的多水下机器人编队拓扑结构图;
图4是本发明实施例中的多水下机器人编队拓扑结构图。
具体实施方式
下面结合附图对本发明做进一步说明:
如图1所示,本发明方法包括以下步骤:
步骤一如图2所示,在水面设置有浮标继电器,带有定位装置的水下机器人编队在水下通过浮标继电器进行自定位,将期望轨迹设置为水下机器人编队的虚拟领导者,并由控制中心发送至每个水下机器人。为了减小水下机器人编队的追踪误差并提高效率,各个水下机器人之间需要进行组网通信。
步骤二为了组成水下机器人节点之间在运行过程中的组网通信网络,建立水下机器人编队的拓扑通信结构G=(V,ξ,A)。其中,G是各个水下机器人节点组成的带权有向图,V={v1,v2,...,vN}是水下机器人各个节点的集合,ξ={eij=(vi,vj)}∈V×V是有向图的有向边集,A=[aij]代表具有非负邻接元素aij的加权邻接矩阵,且aij≥0。拓扑结构图的每一条边eij表示水下机器人节点vi和节点vj在通信过程中的链路。当且仅当eji=(vj,vi)∈ξ时,aij>0,表示水下机器人节点vi可以从节点vj接收信息;否则,aij=0。令bi>0表示且当且仅当水下机器人节点vi是虚拟领导者的邻居节点,否则bi=0。水下机器人节点vi的邻居节点表示为Mi={vj:(vj,vi)∈ξ}。每个水下机器人节点在轨迹追踪过程中选择距离较近的节点进行通信,以此保证编队的稳定和能耗的节省。
步骤三建立水下机器人之间的通信连接后,水下机器人编队使用初始的控制策略按照期望轨迹移动并对环境信息进行在线学习。水下机器人节点vi在t时刻的自身位置为pi(t)=[xi(t),yi(t),zi(t)]T,虚拟领导者位置为pr(t)=[xr(t),yr(t),zr(t)]T。水下机器人节点vi在不同状态下通过和环境以及邻居节点vj的交互,计算得到时刻t+1的一步代价为函数其中代表追踪误差的代价,ui是水下机器人节点vi的控制器输入,uj代表邻居节点对机器人节点vi的输入,Ai,Bi,Ci均为正定矩阵。利用代价函数进行价值函数更新,从而评价当前控制策略的好坏。为了学习到水下机器人编队轨迹追踪过程中的环境信息和邻居节点信息,建立以下价值函数:
Vi(pi(t))=gi(pi(t),ui(t),u(j)(t))+γVi(pi(t+1))
式中,γ∈(0,1)是折扣因子。在价值更新过程中,令Vi=Wi TΦi(pi),使用迭代权重的方法获得控制方法的价值模型:
式中,p(t+1)代表时刻t+1的水下机器人状态,为基向量,是基向量中关于水下机器人节点位置的元素,W是权重向量,Wk+1表示水下机器人编队完成一次追踪后进行价值函数的权重更新,通过最小二乘法迭代求解。令ui(pi)=Ui Tσi(pi),其中基函数σi(pi(t))=[κ1,i(pi(t)),κ2,i(pi(t)),...,κL,i(pi(t))],κi(pi(t))是基向量中关于水下机器人节点位置的元素,权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制策略进行改进,以此得到在追踪过程中更优的控制策略:
其中,u(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略。
步骤四利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解。
价值迭代和策略改进两个过程,当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时,视为收敛,迭代完成的u(p)作为控制器的最优策略输入至水下机器人,完成轨迹追踪任务,达到控制水下机器人编队的目的。
步骤五将步骤一中利用定位装置获得的真实位置输入到步骤二到四操作,获取下一步的最优控制策略;重复循环重复步骤五的操作,完成水下机器人的追踪任务。
下面给出2个具体实施例进行说明:
第1个实施例是含有两个水下机器人节点的编队:
(1)如图2所示,在给定长50m,宽50m,深10m的水域内,部署如图3拓扑结构图所示的多水下机器人编队,V={v1,v2},虚拟领导者编号为“0”并设置为:xr(t)=20sin(0.1t),yr(t)=0.5t,zr=-1,并发送至水下机器人节点v1和v2
(2)用强化学习方法对水下机器人编队进行控制,在节点vi的价值函数Vi(pi(t))=gi(pi(t),ui(t),u(j)(t))+γVi(pi(t+1))中,设折扣因子γ=0.9,Ai=diag(2,3.5,0),Bi=diag(0.8,0.5,0)以及Ci=diag(1.3,0.5,0)。用迭代权重的方式求得价值函数,令Vi=Wi TΦi(pi),则价值函数变为其中基函数设置为Φi(pi(t))=[1,ei(t),||ei(t)||],权重向量Wi利用最小二乘法进行更新。得到价值函数后,在策略改进步骤中,同样设置基函数和权重向量的方式求解最优控制策略,令ui(pi)=Ui Tσi(pi),其中基函数σi(pi(t))=[1,ei(t)],权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制策略进行改进,以此得到在追踪过程中更优的控制策略:
以此,水下机器人编队的控制策略ui(p)通过学习到的信息进行更新。
(3)价值迭代和策略改进两个过程,当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时,视为收敛,迭代完成的ui(p(t))作为控制器的最优控制策略输入至水下机器人,完成轨迹追踪任务,达到控制水下机器人编队的目的。
(4)将定位装置获得的真实位置输入到步骤(2)到(3)操作,获取下一步的最优控制策略;重复循环步骤(4)的操作,完成水下机器人编队的追踪任务。
第2个实施例是含有五个水下机器人节点的编队:
(1)如图4所示,在给定长50m,宽50m,深10m的水域内,部署如图4拓扑结构图所示的多水下机器人编队,V={v1,v2,v3,v4,v5},虚拟领导者编号为“0”并设置为:xr(t)=20(cos(0.1t)+sin(0.2t)),yr(t)=0.4t,zr=-5,并发送至水下机器人节点v1,v2和v4。其中v2发送自身位置信息给v3和v4,v4接收v2的信息并发送自身信息给v5。v3和v5只进行信息的接收。
(2)用强化学习方法对水下机器人编队进行控制,在节点vi的价值函数Vi(pi(t))=gi(pi(t),ui(t),u(j)(t))+γVi(pi(t+1))中,设折扣因子γ=0.85,A1=diag(2,3.5,0),B1=diag(0.8,0.5,0),C1=diag(1.3,0.5,0),A2=diag(0.9,1.5,0),B2=diag(2,1.2,0),C2=diag(2.9,0.4,0),A3,4,5=diag(2,3.5,0),B3,4,5=diag(0.8,0.5,0)以及C3,4,5=diag(1.3,0.5,0)。用迭代权重的方式求得价值函数,令Vi=Wi TΦi(pi),则价值函数变为其中基函数设置为Φi(pi(t))=[1,ei(t),||ei(t)||],权重向量Wi利用最小二乘法进行更新。得到价值函数后,在策略改进步骤中,同样设置基函数和权重向量的方式求解最优控制策略,令ui(pi)=Ui Tσi(pi),其中基函数σi(pi(t))=[1,ei(t)],权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制策略进行改进,以此得到在追踪过程中更优的控制策略:
以此,水下机器人编队的控制策略ui(p)通过学习到的信息进行更新。
(3)价值迭代和策略改进两个过程,当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时,视为收敛,迭代完成的ui(p(t))作为控制器的最优控制策略分别输入至水下机器人节点vi,完成轨迹追踪任务,达到控制水下机器人编队的目的。
(4)将定位装置获得的真实位置输入到步骤(2)到(3)操作,获取下一步的最优控制策略;重复循环步骤(4)的操作,完成水下机器人编队的追踪任务。
以上所述的实施仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (3)

1.一种基于强化学习的多水下机器人编队控制方法,所述控制方法包括以下步骤:
步骤1、将带有定位装置的水下机器人组成水下机器人编队,控制中心将期望轨迹发送至每个水下机器人,定义期望轨迹为虚拟领导者;并在各个水下机器人之间进行组网通信,建立水下机器人编队的拓扑通信结构G=(V,ξ,A);其中,G是各个水下机器人节点组成的带权有向图,V={v1,v2,...,vN}是水下机器人各个节点的集合,ξ={eij=(vi,vj)}∈V×V是有向图的有向边集,A=[aij]代表具有非负邻接元素aij的加权邻接矩阵,且aij≥0;
步骤2、水下机器人编队中水下机器人节点vi在时刻t的自身位置为pi(t)=[xi(t),yi(t),zi(t)]T,虚拟领导者位置为pr(t)=[xr(t),yr(t),zr(t)]T令机器人节点vi在时刻t+1的一步代价为
其中,代表追踪误差的代价,ui是水下机器人节点vi的控制器输入,uj代表邻居节点对机器人节点vi的输入,Ai,Bi,Ci均为正定矩阵;建立价值函数:
Vi(pi(t))=gi(pi(t),ui(t),u(j)(t))+γVi(pi(t+1))
式中,γ∈(0,1)是折扣因子;
步骤3、令Vi=Wi TΦi(pi),使用迭代权重的方法获得控制方法的价值模型:
式中,p(t+1)代表时刻t+1的水下机器人状态,
为基向量,是基向量中关于水下机器人节点位置的元素,W是权重向量,Wk+1表示水下机器人编队完成一次追踪后进行价值模型的权重更新,通过最小二乘法迭代求解;
步骤4、令ui(pi)=Ui Tσi(pi),其中基函数σi(pi(t))=[κ1,i(pi(t)),κ2,i(pi(t)),...,κL,i(pi(t))],κi(pi(t))是基向量中关于水下机器人节点位置的元素,权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制策略进行改进,以此得到在追踪过程中最优的控制策略:
其中,u(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;
步骤5、利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;
步骤6、将步骤1中利用定位装置获得的真实位置输入到步骤2中,经过步骤4-5操作,获取下一步的最优控制策略;重复循环重复步骤6的操作,完成水下机器人的追踪任务。
2.根据权利要求1所述的一种基于强化学习的多水下机器人编队控制方法,其特征在于,在步骤1中,建立水下机器人编队的拓扑通信结构G=(V,ξ,A),其具体内容如下:
拓扑结构图的每一条边eij表示水下机器人节点vi和节点vj在通信过程中的链路;当且仅当eji=(vj,vi)∈ξ时,aij>0,它代表水下机器人节点vi可以从节点vj接收信息;否则,aij=0;令bi>0表示且当且仅当水下机器人节点vi是虚拟领导者的邻居节点,否则bi=0;水下机器人节点vi的邻居节点表示为Mi={vj:(vj,vi)∈ξ}。
3.根据权利要求1所述的一种基于强化学习的多水下机器人编队控制方法,其特征在于,在步骤5中,价值模型更新和控制策略改进两个过程需要循环迭代至收敛,其内容如下:
当水下机器人各个节点迭代价值更新和策略改进过程得到的权重变化小于阈值0.001时,视为收敛,迭代完成的u(p)作为控制器的最优策略输入至水下机器人,完成水下机器人编队的达到控制。
CN201910274101.0A 2019-04-08 2019-04-08 一种基于强化学习的多水下机器人编队控制方法 Pending CN109947131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910274101.0A CN109947131A (zh) 2019-04-08 2019-04-08 一种基于强化学习的多水下机器人编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910274101.0A CN109947131A (zh) 2019-04-08 2019-04-08 一种基于强化学习的多水下机器人编队控制方法

Publications (1)

Publication Number Publication Date
CN109947131A true CN109947131A (zh) 2019-06-28

Family

ID=67012693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910274101.0A Pending CN109947131A (zh) 2019-04-08 2019-04-08 一种基于强化学习的多水下机器人编队控制方法

Country Status (1)

Country Link
CN (1) CN109947131A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794825A (zh) * 2019-08-13 2020-02-14 浙江工业大学 一种异构舞台机器人编队控制方法
CN111897224A (zh) * 2020-08-13 2020-11-06 福州大学 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法
CN112327840A (zh) * 2020-10-27 2021-02-05 中国科学技术大学 用于多机器人系统的追踪控制方法、装置、设备及介质
CN112711261A (zh) * 2020-12-30 2021-04-27 浙江大学 一种基于局部视野的多智能体编队规划方法
CN112947407A (zh) * 2021-01-14 2021-06-11 华南理工大学 一种多智能体有限时间的编队路径跟踪控制方法及系统
CN114489084A (zh) * 2022-02-15 2022-05-13 鲁东大学 一种多机器人在安全通信下的编队控制方法
CN114839884A (zh) * 2022-07-05 2022-08-02 山东大学 一种基于深度强化学习的水下航行器底层控制方法及系统
CN115586782A (zh) * 2022-10-17 2023-01-10 湖南大学 一种自主式水下机器人运动控制方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102788977A (zh) * 2011-05-19 2012-11-21 中国科学院电子学研究所 基于l1/2正则化的合成孔径雷达成像方法
CN103294931A (zh) * 2013-06-28 2013-09-11 上海交通大学 基于改进的非线性鲁棒滤波算法的系统状态估计方法
CN103501016A (zh) * 2013-10-19 2014-01-08 中南林业科技大学 基于过程神经网络的tcsc控制方法及系统
CN108153311A (zh) * 2017-12-22 2018-06-12 武汉理工大学 面向无人艇编队的智能控制系统及控制方法
CN108235347A (zh) * 2017-12-21 2018-06-29 北京科技大学 一种无线传感器网络能耗控制方法
CN108445914A (zh) * 2018-06-06 2018-08-24 厦门大学 一种基于uwb定位的无人机编队表演系统及其实现方法
CN108919800A (zh) * 2018-06-22 2018-11-30 武汉理工大学 一种船舶智能列队航行系统
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102788977A (zh) * 2011-05-19 2012-11-21 中国科学院电子学研究所 基于l1/2正则化的合成孔径雷达成像方法
CN103294931A (zh) * 2013-06-28 2013-09-11 上海交通大学 基于改进的非线性鲁棒滤波算法的系统状态估计方法
CN103501016A (zh) * 2013-10-19 2014-01-08 中南林业科技大学 基于过程神经网络的tcsc控制方法及系统
CN108235347A (zh) * 2017-12-21 2018-06-29 北京科技大学 一种无线传感器网络能耗控制方法
CN108153311A (zh) * 2017-12-22 2018-06-12 武汉理工大学 面向无人艇编队的智能控制系统及控制方法
CN108445914A (zh) * 2018-06-06 2018-08-24 厦门大学 一种基于uwb定位的无人机编队表演系统及其实现方法
CN108919800A (zh) * 2018-06-22 2018-11-30 武汉理工大学 一种船舶智能列队航行系统
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAGUANG ZHANG;HE JIANG;YANHONG LUO;GEYANG XIAO: "Data-Driven Optimal Consensus Control for discrete-time muti-agent systems with unknown dynamics using reinforcement learning method", 《IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS》 *
JUNFEI XIE;YAN WAN;KEVIN MILLS;JAMES J.FILLIBEN;F.L.L: "A Scalable Sampling Method to high dimensional uncertainties for optimal and reinforcement learning-based controls", 《IEEE CONTROL SYSTEMS LETTERS》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794825A (zh) * 2019-08-13 2020-02-14 浙江工业大学 一种异构舞台机器人编队控制方法
CN111897224A (zh) * 2020-08-13 2020-11-06 福州大学 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法
CN112327840A (zh) * 2020-10-27 2021-02-05 中国科学技术大学 用于多机器人系统的追踪控制方法、装置、设备及介质
CN112327840B (zh) * 2020-10-27 2022-09-09 中国科学技术大学 用于多机器人系统的追踪控制方法、装置、设备及介质
CN112711261A (zh) * 2020-12-30 2021-04-27 浙江大学 一种基于局部视野的多智能体编队规划方法
CN112947407A (zh) * 2021-01-14 2021-06-11 华南理工大学 一种多智能体有限时间的编队路径跟踪控制方法及系统
CN114489084A (zh) * 2022-02-15 2022-05-13 鲁东大学 一种多机器人在安全通信下的编队控制方法
CN114839884A (zh) * 2022-07-05 2022-08-02 山东大学 一种基于深度强化学习的水下航行器底层控制方法及系统
CN114839884B (zh) * 2022-07-05 2022-09-30 山东大学 一种基于深度强化学习的水下航行器底层控制方法及系统
CN115586782A (zh) * 2022-10-17 2023-01-10 湖南大学 一种自主式水下机器人运动控制方法及装置
CN115586782B (zh) * 2022-10-17 2024-04-12 湖南大学 一种自主式水下机器人运动控制方法及装置

Similar Documents

Publication Publication Date Title
CN109947131A (zh) 一种基于强化学习的多水下机器人编队控制方法
Yoo et al. Path optimization for marine vehicles in ocean currents using reinforcement learning
CN104407619B (zh) 不确定环境下的多无人机同时到达多个目标方法
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
Liu et al. Scanning-chain formation control for multiple unmanned surface vessels to pass through water channels
Li et al. Neural-network-based path planning for a multirobot system with moving obstacles
CN108594846A (zh) 一种障碍环境下多auv编队队形优化控制方法
CN103592849B (zh) 一种船舶动力定位控制方法
CN109240091B (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN106502250B (zh) 三维空间内多机器人编队的路径规划算法
Zhu et al. Task assignment and path planning of a multi-AUV system based on a Glasius bio-inspired self-organising map algorithm
CN108873687A (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
Cao et al. Toward optimal rendezvous of multiple underwater gliders: 3D path planning with combined sawtooth and spiral motion
CN108333949A (zh) 针对多智能体系统执行器部分失效故障的滑模容错控制方法
CN111142533B (zh) 多个无人水面艇的多势场避障方法及复杂环境下多usv多模式编队避障控制方法
CN109799829B (zh) 一种基于自组织映射的机器人群体协同主动感知方法
CN111522341A (zh) 网络异构机器人系统的多时变编队跟踪控制方法及系统
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN110989639A (zh) 一种基于应力矩阵的水下航行器编队控制方法
CN111880565A (zh) 一种基于Q-Learning的集群协同对抗方法
CN114859911A (zh) 一种基于drl的四足机器人路径规划方法
CN114237247A (zh) 基于预测的可变队形非完整移动机器人一致性控制方法
CN114943168B (zh) 一种水上浮桥组合方法及系统
Xin et al. Formation tracking and transformation control of nonholonomic AUVs based on improved SOM method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication