CN113741449A - 一种面向海空协同观测任务的多智能体控制方法 - Google Patents

一种面向海空协同观测任务的多智能体控制方法 Download PDF

Info

Publication number
CN113741449A
CN113741449A CN202111004160.XA CN202111004160A CN113741449A CN 113741449 A CN113741449 A CN 113741449A CN 202111004160 A CN202111004160 A CN 202111004160A CN 113741449 A CN113741449 A CN 113741449A
Authority
CN
China
Prior art keywords
unmanned
action
network
unmanned ship
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111004160.XA
Other languages
English (en)
Other versions
CN113741449B (zh
Inventor
胡凯
陈旭
邓志良
刘云平
赵中原
严飞
龚毅光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202111004160.XA priority Critical patent/CN113741449B/zh
Publication of CN113741449A publication Critical patent/CN113741449A/zh
Application granted granted Critical
Publication of CN113741449B publication Critical patent/CN113741449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种面向海空协同观测任务的多智能体控制方法,包括以下步骤:单艘无人艇搜寻出中尺度涡内具有观测价值的区域;无人艇从涡流的最外侧沿着直线向中心行驶,艇上搭载的传感器每隔一段时间采集一次水温,并将水温数据由高到底进行排序,得到水温变化梯度大的区域;派出多艘无人艇在以上区域内搜寻等温线,采用数据驱动和深度确定性策略梯度算法对各艘无人艇的航姿继续控制,已确保其行驶在等温线上;派遣无人机前往涡流的中心,采用多智能体深度确定性策略梯度算法控制无人机与各无人艇汇合。本发明能够在环境受限、模型受限以及能量受限条件下,实现无人艇搜寻等温线,以及无人机对无人艇的观测数据进行大规模数据的采集任务。

Description

一种面向海空协同观测任务的多智能体控制方法
技术领域
本发明属于多智能体控制领域,特别涉及一种面向海空协同观测任务的多智能体控制方法。
背景技术
中尺度涡是一种以长期封闭环流为主要特征,时间尺度在数天至数月,空间尺度在数十千米至数百千米之间的海洋现象,其对天气预测、海洋化学以及生物环境有着不可忽视的影响。推动中尺度涡的研究可以进一步推动该区域的海洋环境保障。传统的观测方法是在相关水域中投放一些浮标、波浪滑翔机等设备,数日后再进行集中收回。显而易见,这种方法并不能实时传信息。如果中途需要获取数据,只能派遣船只捞起观测设备,耗时且费力。此外,中尺度涡除了旋转运动,自身还在不断地“迁移”。因此,传统的固定点观测方法存在较大局限性,需要发展一种新的高精度且自动化的观测手段,这就需要基于任务需求制定合理的海空协同控制方法,协同无人艇(Unmanned Surface Vehicle,USV)、无人机(Unmanned Aerial Vehicle,UAV)等多种智能设备,实现海空协同观测中尺度涡这类特定海洋现象的任务。
建设海空协同观测系统的主要目标是集成自主研发的智能体移动观测平台,研发海上多智能体协同算法,协同无人艇、无人机等多种智能设备,实现海空协同观测任务。通过对等温线的观测将有助于我们了解中尺度涡这类特定海洋现象的形成和传播,观测任务需要引导多艘无人艇与无人机协同观测中尺度涡的等温线数据。任务具体主要有以下2个:
任务1要求无人艇首先搜寻出等温线,并沿着等温线自主航行。
任务2要求无人机对无人艇的观测数据进行大规模数据的“抄表”。
而现有的控制方法过于依赖系统模型参数,未考虑到海上环境对模型的扰动影响,而且无人机、无人艇这类异构系统较为复杂,难以搭建起精确的数学模型。此外,由于场景不同、约束不同,现有的控制方法不适用于海空协同观测任务。
发明内容
发明目的:中尺度涡的空间尺度在数十千米至数百千米之间,在实际观测任务中,一般需要数艘无人艇与数架无人机协同观测中尺度涡,一艘无人艇负责对水体的一条等温线循迹,找出它们的位置数据,集中通过无人机发送给服务器分析,构建中尺度涡观测模型。为了克服背景技术的不足,本发明公开了一种面向海空协同观测任务的多智能体控制方法,能够在环境受限、模型受限以及能量受限条件下,实现无人艇自主搜寻等温线,以及无人机对无人艇的观测数据进行大规模数据的采集任务。
技术方案:本发明所述的一种面向海空协同观测任务的多智能体控制方法,其具体的整体工作流程如下:
步骤1.建立初步的采样区域。先从太空卫星观测到海面上中尺度涡的生成,然后派出一艘无人艇从中尺度涡的最外侧沿着直线行驶至中心处,并沿途收集观测数据,建立起初步的采样区域。本发明是以中尺度涡的水温变化举例,当然也可以根据实际科研考察需求,选择盐度、流量等作为参考;
步骤2.对采样区域进一步筛选。由于中尺度涡的分布空间很大,而无人艇的数量有限,因此在无人艇到达中尺度涡的中心时,把每个区域内所采样到的水温数据以梯度形式继续处理,由高向低排序。无人艇在按照步骤1行驶到中心过程中,搭载的温度传感器每隔一段时间采集一次水温,无人艇在按照步骤1行驶到达中心时,通过降序排列法筛选出水温变化梯度值大于阈值的区域,即具有观测价值区域;
步骤3.搜寻具有观测价值区域内的等温线。根据已有无人艇的数量确定具有观测价值区域的数量,一艘无人艇搜寻一个区域内的等温线,并记录等温线的位置数据。在搜寻过程中,采用数据驱动和深度确定性策略梯度算法对无人艇的航姿进行控制,已确保其始终行驶在等温线上;
步骤4.无人机对所有无人艇上观测数据进行采集,发送给服务器分析,构建中尺度涡观测模型。派遣无人机前往中尺度涡的中心,采用多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)引导无人机与各艘无人艇在规定时间域内汇合,实现无人机一次飞行即可完成对所有无人艇上观测数据的采集任务。
进一步的,步骤2中所述水温变化梯度的表达式为:
Figure BDA0003236610940000021
其中,Ki∈{K1,K2,…,Kn}表示水温,n表示采样次数,为了方便计算,设定无人艇每隔一分钟采集一次水温,则水温变化梯度值为:
Figure BDA0003236610940000022
进一步的,步骤3中所述无人艇搜寻等温线算法的工作步骤如下:
步骤3-1.输入目标轨迹。根据已有的等温线数据集拟合出多条不规则形状的等温线,并作为目标航迹;
步骤3-2.利用DDPG算法对无人艇控制系统数据进行学习,训练出相关的数据驱动式DDPG控制器。与需要有大量样本数据的监督学习算法不同,DDPG算法不需要受控对象精准的数学模型,这对于未知环境下无人艇搜寻等温线的运动控制很有意义。
步骤3-3.输出实际轨迹。
其中,步骤3-2中DDPG算法的马尔可夫决策过程和网络结构如下:
步骤A.马尔可夫决策模型包括状态空间、动作空间、回报函数:
步骤A-1.定义状态空间,选择的状态输入包括两部分,第一部分是无人艇的状态信息,即无人艇相对于地面坐标系的状态向量
Figure BDA0003236610940000031
并进一步计算出与等温线夹角θ;第二部分是温度传感器返回的环境状态信息,即温度传感器采集当前位置的水温数据K,根据水温变化判断无人艇是否航行在等温线上,状态空间的定义如下:
Figure BDA0003236610940000032
其中,x、y、
Figure BDA0003236610940000033
分别代表了无人艇在地面坐标系中的坐标和航向角;
步骤A-2.定义动作空间,考虑到无人艇的运动特性,假设在本次任务中无人艇在航行过程中线速度保持不变,无人艇的动作即为角速度ω。此时,角速度的变化会导致无人艇航向的变化。同时,为了无人艇在一次控制过程中只能在一定范围内转弯,假设动作值的范围是-60°(a1)到60°(a13),并以10°的增量变化。则动作空间的定义如下:
A=[a1,a2,…,a13]
步骤A-3.定义回报函数,为了生成到达目标轨迹的最短路径,即保证其每一步的动作能够使得无人艇行驶在等温线上,本发明设计了以下的一组回报函数:
Figure BDA0003236610940000034
其中,rarrive=2为达到奖励函数,K0表示无人艇在出发点水域所采集到的温度,Kt代表当前t时刻无人艇所在位置的水温;如果Kt与K0的绝对差值小于等于阈值Tgoal,则说明无人艇在等温线搜寻范围之内,激活该函数;同时,为了引导无人艇不断朝向等温线航行,设置了一个转向函数:
rdirection=w1t-1t)+w2*|Kt-1-Kt|
其中,Kt-1代表了t-1时刻无人艇所在区域的水温,θt代表了当前无人艇航向与等温线的夹角,w1代表奖励系数,w2代表惩罚系数,两者值的大小均根据调参过程进行调整。若执行上一时刻的动作使得无人艇未行驶等温线上,调整惩罚系数进行惩罚;若执行上一时刻的动作使得无人艇行驶在等温线上,调整奖励系数给予一定的奖励。这就使得无人艇在探索过程中奖励不稀疏,加快算法收敛速度。
步骤B.设计算法网络结构,结合以上的状态空间、动作空间以及回报函数,设计深度DDPG算法的策略网络和评价网络结构:
步骤B-1.策略网络采用一个输入与一个输出的深度卷积网络,其输入是环境状态信息,即水温变化梯度信息以及无人艇当前的运动状态信息,输出是无人艇的动作指令,即角速度,角速度的变化导致无人艇航向的变化。该结构具有两个隐藏层,第一层设置节点数为400,激活函数为softplus,第二层设置节点数是300,激活函数为tanh;
步骤B-2.评估网络采用两个输入与一个输出的深度卷积神经网络,其输入包括环境状态信息和策略网络输出的动作,输出则是当前策略的评价指标,即动作的Q值。进一步来说,首先,将状态信息输入到评估网络中,该网络第二层设置的节点数为400,第三层设置的节点数为300,同时,将动作矩阵也输入到评价网络中,其第二层的神经元节点数为300,最后,将状态空间矩阵输入的网络的第三层神经元与动作矩阵输入的网络的第二层神经元节点合并,经过ReLU激活函数,得出输出值。此外,需要指出的是,网络中所有神经元节点之间的连接方式均为全连接方式。
进一步的,步骤4中所述无人机对无人艇观测数据进行采集的工作步骤如下:
步骤C.MADDPG算法的马尔可夫决策过程:
步骤C-1定义状态空间:
S={dt(USV1,UAV),dt(USV2,UAV),…,dt(USVn,UAV)}
其中,dt(USVi,UAV)表示t时刻第i个无人艇与无人机之间的距离,n表示有n个无人艇;
Figure BDA0003236610940000041
其中,(xgoal,ygoal)当前时刻无人机的位置坐标,(x,y)表示无人艇的位置坐标为;步骤C-2定义动作空间:
Figure BDA0003236610940000042
其中,at表示表示t时刻第i个无人艇与无人机汇合的动作空间为:
Figure BDA0003236610940000043
其中,
Figure BDA0003236610940000044
at UAV分别代表t时刻无人艇和无人机的线速度,两者线速度的变化将导致汇合时间的变化,进一步影响到其它无人艇与无人机的汇合时间。
步骤C-3.定义回报函数:
Figure BDA0003236610940000051
其中,rconverge表示汇合奖励函数,是一个正值。无人艇与无人机成功汇合是完成观测数据采集任务的关键标准之一,dmax表示无人机能够采集无人艇上观测数据的最大距离。当USV1与无人机之间的dt USV1距离小于等于dmax时,即视为汇合成功,激活该函数。rdistance表示距离奖励函数,其用于引导USV1和无人机以最短时间、最小能量损的汇合。当无人机、无人艇的距离越近,奖励越多,距离奖励函数表示为:
rdistance=λ1(dt-1-dt)-λ2|vt-1 UAV-vt UAV|
其中,λ1表示距离奖励系数,dt表示当前采样获得的USV1与无人机的距离,dt-1表示上一步的距离,将dt-1与上dt做差,如果差值为正,则说明USV1与无人机的距离越来越小时,上一步的动作使得两者接近,通过调整奖励系数给予一定的奖励;反之,说明上一步的动作使得两者远离,通过调整惩罚系数给予一定的惩罚,λ2表示惩罚系数,vt UAV表示t时刻无人机的线速度,当上一刻与当前的线速度变化大于预设阈值时,通过调整惩罚系数给与一定的惩罚,这是因为无人机线速度的变化会导致能量过多的损耗,不利于无人机达到最大航程飞行要求。
步骤D.采用集中式训练、分布式执行的方式对多智能体系统进行训练:
步骤D-1.定义第i个智能体的随机策略梯度:
Figure BDA0003236610940000052
其中,J(·)表示总奖赏,ρπ(s)表示折现状态分布,θi是表示第i个智能体策略的参数。s表示全局观测量,ai表示第i个智能体的动作,πi表示第i个智能体的控制策略,
Figure BDA0003236610940000053
是第i个策略网络的参数,oi表示第i个智能体的观测值,即状态。
Figure BDA0003236610940000054
表示关于贴现状态分布ρ(s)的期望值,
Figure BDA0003236610940000055
是分值函数,πi(ai|on)表示一个在状态on对于各个动作ai的条件概率分布,
Figure BDA0003236610940000056
表示所有智能体的状态动作值函数集合,该值的输出是通过将所有智能体的动作和全局环境状态输入策略网络和评价网络中得到的。
步骤D-2.定义n个智能体的确定性策略梯度:
Figure BDA0003236610940000057
其中,函数J是用于衡量一个确定性策略μi的表现,θi μ是第i个确定性策略网络的参数,用一个卷积神经网络对μ函数进行模拟,这个网络被称为策略网络。ai=μi(oi)是一个观测值空间到动作值空间的映射。D表示经验回放池,用于存储所有智能体与环境交互的经验数据,每一条经验数据都是由一组(s,s′,a1,…,an,r1,…,rn)组成;
步骤D-3.定义评价网络逼近的目标函数:
Figure BDA0003236610940000061
其中,r代表回报函数,s′表示s状态下执行动作a后的下个状态,γ是折扣因子,用于计算未来的累计回报期望。μj、oj分别表示目标策略和目标观测值,
Figure BDA0003236610940000062
是由θi μ复制而来的目标策略网络参数。在集中式训练方式下,采用时间差分思想以及目标网络思想对评价网络参数进行更新;
步骤D-4.计算损失函数:
Figure BDA0003236610940000063
其中,a′表示智能体在状态s′下所执行的动作;
步骤D-5.定义最大化策略集合的整体回报:
Figure BDA0003236610940000064
其中,unif(1,K)是一个从1到K均匀分布的数值集合,第i个智能体的策略μi是由k个子策略的集合组成,在每个回合的训练中只采用一个子策略
Figure BDA0003236610940000065
并对每个子策略k再构建一组子经验回放池Di (k)。Ri(s,a)表示全局奖励函数;
步骤D-6.定义每个子策略的更新梯度:
Figure BDA0003236610940000066
其中,
Figure BDA0003236610940000067
表示动作值函数的梯度,输入所有智能体的动作a={a1,…,an}以及环境状态量s,
Figure BDA0003236610940000068
是子策略
Figure BDA0003236610940000069
下观测值空间到动作值空间的映射。
有益效果:与现有技术相比,本发明的技术方案具有以下有益效果:
目前,已有的多智能体协同算法的设计过于依赖系统模型参数。同时,由于任务不同、约束不同,现有的协同算法不适用于本次海空协同观测任务。而本发明所提出的一种面向海空协同观测任务的多智能体控制方法,能够在环境受限、模型受限以及能量受限条件下,实现无人艇循迹等温线,以及无人机对无人艇的观测数据进行大规模数据的采集任务。
附图说明
图1多无人艇协同搜索多条等温线任务示意图;
图2无人机对所有无人艇观测数据进行采集任务示意图;
图3无人艇循迹等温线的原理框图;
图4DDPG算法的网络结构图;
图5无人艇与无人机的环境状态示意图;
图6MADDPG的网络训练过程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,本发明需要解决的任务1为解决多无人艇协同搜索多条等温线任务。以三艘无人艇集群编队为示范,任务1需要引导USV1、USV2、USV3搜寻各自区域内的等温线,并沿着等温线自主航行。;
如图2所示,本发明需要解决的任务2无人机对所有无人艇观测数据的采集任务。任务2是所有无人艇、无人机基于各自与对方的距离、方向等信息调整自身的速度,以实现USV1、USV2、USV3分别在t1、t2、t3时刻与无人机汇合,方便了无人机每天一次飞行即可完成对所有观测数据的采集任务;
如图3所示,本发明提出一种基于数据驱动式的深度确定性策略控制方法。利用DDPG算法强大的学习、决策能力对这些系统数据进行学习,训练出相关系统的数据驱动式DDPG控制器,以完成无人艇搜寻等温线的任务。本发明通过传感器技术采集无人艇运动的实时状态数据,建立完备的数据库。
如图4所示,本发明提出DDPG算法的策略网络采用一个输入与一个输出的深度卷积网络,其输入是环境状态信息,即水温变化梯度信息以及无人艇当前的运动状态信息,输出是无人艇的动作指令,即角速度,角速度的变化导致无人艇航向的变化。本发明提出DDPG算法的评估网络采用两个输入与一个输出的深度卷积神经网络,其输入包括环境状态信息和策略网络输出的动作,输出则是当前策略的评价指标,即动作的Q值。
如图5所示,本发明在定义无人艇与无人机的环境状态时,需要考虑到两者相对的距离。同时,三艘无人艇分别沿着不同的等温线运动,航向是不会因为无人机而改变的。,由于无人机的最大航程有限,这就限制了无人机的航向是固定的,即始终向中尺度涡的中心飞行,并且线速度值的大小一定的范围内进行调整,这是因为线加速度和角加速度的变化都会损耗无人机的能量,不利于无人机一次飞行完成所有无人艇上观测数据的采集。因此,本发明无需考虑无人艇与无人机的相对角度因素。
如图6所示,本发明针对DDPG算法在解决异构多智能体控制问题上的不足,提出了一种基于MADDP算法的协同控制策略。对于每个智能体i,将其状态si输入其策略网络,得到动作ai,在仿真环境中执行该动作到达新状态si′并获得回报ri。同时,该交互数据以元组<si,ai,si′,ri>的形式存入其独享的经验池Di中。该智能体在新状态si′下会继续根据其当前的策略网络选择动作与环境交互,不断生成数据。以此类推,其它智能体同样与环境交互并将经验输入存入各自的经验池中。在更新网络时,以智能体i为例,先按批的大小以经验池的容量为最大值生成一串随机数,然后以随机数为索引从所有智能体的经验池中采样得到同样时刻的一批数据,并将其拼接得到一批元组<S,A,S′,R>,其中每个元组的S和S′是相同时刻所有智能体的组合状态,A是所有智能体的组合动作,而回报R仅仅选用智能体i的回报值。将S′输入到目标策略网络i得到动作A′,随后将S′与A′共同输入到目标评价网络i中得到对下一时刻估计的目标Q值,根据公式计算当前时刻的目标Q值。再使用评价网络得到实际的Q值,利用TD偏差来更新评价网络,用Q值的策略梯度更新策略网络。其它智能体的网络更新方式以此类推,主要区别在于输入。
本发明所述的一种面向海空协同观测任务的多智能体控制方法,其具体的工作流程如下:
步骤1.建立初步的采样区域。先从太空卫星观测到海面上中尺度涡的生成,然后派出一艘无人艇从中尺度涡的最外侧沿着直线行驶至中心处,并沿途收集观测数据,建立起初步的采样区域。本发明是以中尺度涡的水温变化举例,当然也可以根据实际科研考察需求,选择盐度、流量等作为参考;
步骤2.对采样区域进一步筛选。由于中尺度涡的分布空间很大,而无人艇的数量有限,因此在无人艇到达中尺度涡的中心时,把每个区域内所采样到的水温数据以梯度形式继续处理,由高向低排序。无人艇在按照步骤1行驶到中心过程中,搭载的温度传感器每隔一段时间采集一次水温,无人艇在按照步骤1行驶到达中心时,通过降序排列法筛选出水温变化梯度值大于阈值的区域,即具有观测价值区域;
步骤3.搜寻具有观测价值区域内的等温线。根据已有无人艇的数量确定具有观测价值区域的数量,一艘无人艇搜寻一个区域内的等温线,并记录等温线的位置数据。在搜寻过程中,采用数据驱动和深度确定性策略梯度算法对无人艇的航姿进行控制,已确保其始终行驶在等温线上;
步骤4.无人机对所有无人艇上观测数据进行采集,发送给服务器分析,构建中尺度涡观测模型。派遣无人机前往中尺度涡的中心,采用多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)引导无人机与各艘无人艇在规定时间域内汇合,实现无人机一次飞行即可完成对所有无人艇上观测数据的采集任务。
进一步的,步骤2中所述水温变化梯度的表达式为:
Figure BDA0003236610940000091
其中,Ki∈{K1,K2,…,Kn}表示水温,n表示采样次数,为了方便计算,设定无人艇每隔一分钟采集一次水温,则水温变化梯度值为:
Figure BDA0003236610940000092
进一步的,步骤3中所述无人艇搜寻等温线算法的工作步骤如下:
步骤3-1.输入目标轨迹。根据已有的等温线数据集拟合出多条不规则形状的等温线,并作为目标航迹;
步骤3-2.利用DDPG算法对无人艇控制系统数据进行学习,训练出相关的数据驱动式DDPG控制器。与需要有大量样本数据的监督学习算法不同,DDPG算法不需要受控对象精准的数学模型,这对于未知环境下无人艇搜寻等温线的运动控制很有意义。
步骤3-3.输出实际轨迹。
其中,步骤3-2中DDPG算法的马尔可夫决策过程和网络结构如下:
步骤A.马尔可夫决策模型包括状态空间、动作空间、回报函数:
步骤A-1.定义状态空间,选择的状态输入包括两部分,第一部分是无人艇的状态信息,即无人艇相对于地面坐标系的状态向量
Figure BDA0003236610940000093
并进一步计算出与等温线夹角θ;第二部分是温度传感器返回的环境状态信息,即温度传感器采集当前位置的水温数据K,根据水温变化判断无人艇是否航行在等温线上,状态空间的定义如下:
Figure BDA0003236610940000094
其中,x、y、
Figure BDA0003236610940000095
分别代表了无人艇在地面坐标系中的坐标和航向角;
步骤A-2.定义动作空间,考虑到无人艇的运动特性,假设在本次任务中无人艇在航行过程中线速度保持不变,无人艇的动作即为角速度ω。此时,角速度的变化会导致无人艇航向的变化。同时,为了无人艇在一次控制过程中只能在一定范围内转弯,假设动作值的范围是-60°(a1)到60°(a13),并以10°的增量变化。则动作空间的定义如下:
A=[a1,a2,…,a13]
步骤A-3.定义回报函数,为了生成到达目标轨迹的最短路径,即保证其每一步的动作能够使得无人艇行驶在等温线上,本发明设计了以下的一组回报函数:
Figure BDA0003236610940000101
其中,rarrive=2为达到奖励函数,K0表示无人艇在出发点水域所采集到的温度,Kt代表当前t时刻无人艇所在位置的水温;如果Kt与K0的绝对差值小于等于阈值Tgoal,则说明无人艇在等温线搜寻范围之内,激活该函数;同时,为了引导无人艇不断朝向等温线航行,设置了一个转向函数:
rdirection=w1t-1t)+w2*|Kt-1-Kt|
其中,Kt-1代表了t-1时刻无人艇所在区域的水温,θt代表了当前无人艇航向与等温线的夹角,w1代表奖励系数,w2代表惩罚系数,两者值的大小均根据调参过程进行调整。若执行上一时刻的动作使得无人艇未行驶等温线上,调整惩罚系数进行惩罚;若执行上一时刻的动作使得无人艇行驶在等温线上,调整奖励系数给予一定的奖励。这就使得无人艇在探索过程中奖励不稀疏,加快算法收敛速度。
步骤B.设计算法网络结构,结合以上的状态空间、动作空间以及回报函数,设计深度DDPG算法的策略网络和评价网络结构:
步骤B-1.策略网络采用一个输入与一个输出的深度卷积网络,其输入是环境状态信息,即水温变化梯度信息以及无人艇当前的运动状态信息,输出是无人艇的动作指令,即角速度,角速度的变化导致无人艇航向的变化。该结构具有两个隐藏层,第一层设置节点数为400,激活函数为softplus,第二层设置节点数是300,激活函数为tanh;
步骤B-2.评估网络采用两个输入与一个输出的深度卷积神经网络,其输入包括环境状态信息和策略网络输出的动作,输出则是当前策略的评价指标,即动作的Q值。进一步来说,首先,将状态信息输入到评估网络中,该网络第二层设置的节点数为400,第三层设置的节点数为300,同时,将动作矩阵也输入到评价网络中,其第二层的神经元节点数为300,最后,将状态空间矩阵输入的网络的第三层神经元与动作矩阵输入的网络的第二层神经元节点合并,经过ReLU激活函数,得出输出值。此外,需要指出的是,网络中所有神经元节点之间的连接方式均为全连接方式。
进一步的,步骤4中所述无人机对无人艇观测数据进行采集的工作步骤如下:
步骤C.MADDPG算法的马尔可夫决策过程:
步骤C-1定义状态空间:
S={dt(USV1,UAV),dt(USV2,UAV),…,dt(USVn,UAV)}
其中,dt(USVi,UAV)表示t时刻第i个无人艇与无人机之间的距离,n表示有n个无人艇;
Figure BDA0003236610940000111
其中,(xgoal,ygoal)当前时刻无人机的位置坐标,(x,y)表示无人艇的位置坐标为;
步骤C-2定义动作空间:
Figure BDA0003236610940000112
其中,at表示表示t时刻第i个无人艇与无人机汇合的动作空间为:
Figure BDA0003236610940000113
其中,
Figure BDA0003236610940000114
at UAV分别代表t时刻无人艇和无人机的线速度,两者线速度的变化将导致汇合时间的变化,进一步影响到其它无人艇与无人机的汇合时间。
步骤C-3.定义回报函数:
Figure BDA0003236610940000115
其中,rconverge表示汇合奖励函数,是一个正值。无人艇与无人机成功汇合是完成观测数据采集任务的关键标准之一,dmax表示无人机能够采集无人艇上观测数据的最大距离。当USV1与无人机之间的dt USV1距离小于等于dmax时,即视为汇合成功,激活该函数。rdistance表示距离奖励函数,其用于引导USV1和无人机以最短时间、最小能量损的汇合。当无人机、无人艇的距离越近,奖励越多,距离奖励函数表示为:
rdistance=λ1(dt-1-dt)-λ2|vt-1 UAV-vt UAV|
其中,λ1表示距离奖励系数,dt表示当前采样获得的USV1与无人机的距离,dt-1表示上一步的距离,将dt-1与上dt做差,如果差值为正,则说明USV1与无人机的距离越来越小时,上一步的动作使得两者接近,通过调整奖励系数给予一定的奖励;反之,说明上一步的动作使得两者远离,通过调整惩罚系数给予一定的惩罚,λ2表示惩罚系数,vt UAV表示t时刻无人机的线速度,当上一刻与当前的线速度变化大于预设阈值时,通过调整惩罚系数给与一定的惩罚,这是因为无人机线速度的变化会导致能量过多的损耗,不利于无人机达到最大航程飞行要求。
步骤D.采用集中式训练、分布式执行的方式对多智能体系统进行训练:
步骤D-1.定义第i个智能体的随机策略梯度:
Figure BDA0003236610940000121
其中,J(·)表示总奖赏,ρπ(s)表示折现状态分布,θi是表示第i个智能体策略的参数。s表示全局观测量,ai表示第i个智能体的动作,πi表示第i个智能体的控制策略,
Figure BDA0003236610940000122
是第i个策略网络的参数,oi表示第i个智能体的观测值,即状态。
Figure BDA0003236610940000123
表示关于贴现状态分布ρ(s)的期望值,
Figure BDA0003236610940000124
是分值函数,πi(ai|on)表示一个在状态on对于各个动作ai的条件概率分布,
Figure BDA0003236610940000125
表示所有智能体的状态动作值函数集合,该值的输出是通过将所有智能体的动作和全局环境状态输入策略网络和评价网络中得到的。
步骤D-2.定义n个智能体的确定性策略梯度:
Figure BDA0003236610940000126
其中,函数J是用于衡量一个确定性策略μi的表现,θi μ是第i个确定性策略网络的参数,用一个卷积神经网络对μ函数进行模拟,这个网络被称为策略网络。ai=μi(oi)是一个观测值空间到动作值空间的映射。D表示经验回放池,用于存储所有智能体与环境交互的经验数据,每一条经验数据都是由一组(s,s′,a1,…,an,r1,…,rn)组成;
步骤D-3.定义评价网络逼近的目标函数:
Figure BDA0003236610940000127
其中,r代表回报函数,s′表示s状态下执行动作a后的下个状态,γ是折扣因子,用于计算未来的累计回报期望。μj、oj分别表示目标策略和目标观测值,
Figure BDA0003236610940000128
是由θi μ复制而来的目标策略网络参数。在集中式训练方式下,采用时间差分思想以及目标网络思想对评价网络参数进行更新;
步骤D-4.计算损失函数:
Figure BDA0003236610940000129
其中,a′表示智能体在状态s′下所执行的动作;
步骤D-5.定义最大化策略集合的整体回报:
Figure BDA00032366109400001210
其中,unif(1,K)是一个从1到K均匀分布的数值集合,第i个智能体的策略μi是由k个子策略的集合组成,在每个回合的训练中只采用一个子策略
Figure BDA0003236610940000131
并对每个子策略k再构建一组子经验回放池Di (k)。Ri(s,a)表示全局奖励函数;
步骤D-6.定义每个子策略的更新梯度:
Figure BDA0003236610940000132
其中,
Figure BDA0003236610940000133
表示动作值函数的梯度,输入所有智能体的动作a={a1,…,an}以及环境状态量s,
Figure BDA0003236610940000134
是子策略
Figure BDA0003236610940000135
下观测值空间到动作值空间的映射。
通过实现本发明,可以建设海空协同观测系统,具体完成以下具体2个任务。
任务1要求无人艇首先搜寻出等温线,并沿着等温线自主航行。
任务2要求无人机对无人艇的观测数据进行大规模数据的采集。
从而,集成自主研发的智能体移动观测平台,协同无人艇、无人机等多种智能设备,实现海空协同观测任务。通过对等温线的观测,助于我们了解中尺度涡这类特定海洋现象的形成和传播。

Claims (5)

1.一种面向海空协同观测任务的多智能体控制方法,其特征在于,该方法包括如下步骤:
步骤1.建立初步的采样区域,先从太空卫星观测到海面上中尺度涡的生成,然后派出一艘无人艇从中尺度涡的最外侧沿着直线行驶至中心处,并沿途收集观测数据,建立起初步的采样区域;
步骤2.对采样区域进一步筛选,在无人艇到达中尺度涡的中心时,把每个区域内所采样到的水温数据以梯度形式继续处理,由高向低排序,无人艇在按照步骤1行驶到中心过程中,搭载的温度传感器每隔一段时间采集一次水温,无人艇在按照步骤1行驶到达中心时,通过降序排列法筛选出水温变化梯度值大于阈值的区域,即具有观测价值区域;
步骤3.搜寻具有观测价值区域内的等温线,根据已有无人艇的数量确定具有观测价值区域的数量,每一艘无人艇搜寻一个区域内的等温线,并记录等温线的位置数据,在搜寻过程中,采用数据驱动和深度确定性策略梯度算法对无人艇的航姿进行控制,已确保其始终行驶在等温线上;
步骤4.无人机对所有无人艇上观测数据进行采集,发送给服务器分析,构建中尺度涡观测模型,派遣无人机前往中尺度涡的中心,采用多智能体深度确定性策略梯度算法引导无人机与各艘无人艇在规定时间域内汇合,实现无人机一次飞行即可完成对所有无人艇上观测数据的采集任务,所述多智能体深度确定性策略梯度算法记为MADDPG。
2.根据权利要求1所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤2中的水温变化梯度的表达式为:
Figure FDA0003236610930000011
其中,Ki∈{K1,K2,...,Kn}表示水温,n表示采样次数,设定无人艇每隔一分钟采集一次水温,则水温变化梯度值为:
Figure FDA0003236610930000012
3.根据权利要1或2所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤3中的无人艇搜寻等温线算法的步骤如下:
步骤3-1.输入目标轨迹,根据已有的等温线数据集拟合出多条不规则形状的等温线,并作为目标航迹;
步骤3-2.利用DDPG算法对无人艇控制系统数据进行学习,训练出相关的数据驱动式DDPG控制器;
步骤3-3.输出实际轨迹。
4.根据权利要3所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤3-2中DDPG算法的马尔可夫决策过程和网络结构如下:
步骤A.马尔可夫决策模型包括状态空间、动作空间、回报函数:
步骤A-1.定义状态空间,选择的状态输入包括两部分,第一部分是无人艇的状态信息,即无人艇相对于地面坐标系的状态向量
Figure FDA0003236610930000021
并进一步计算出与等温线夹角θ;第二部分是温度传感器返回的环境状态信息,即温度传感器采集当前位置的水温数据K,根据水温变化判断无人艇是否航行在等温线上,状态空间的定义如下:
Figure FDA0003236610930000022
其中,x、y、
Figure FDA0003236610930000023
分别代表了无人艇在地面坐标系中的坐标和航向角;
步骤A-2.定义动作空间,假设在本次任务中无人艇在航行过程中线速度保持不变,无人艇的动作即为角速度ω,同时,假设动作值的范围是a1=-60°到a13=60°,并以10°的增量变化,则动作空间的定义如下:
A=[a1,a2,...,a13]
步骤A-3.定义回报函数,为了生成到达目标轨迹的最短路径,即保证其每一步的动作能够使得无人艇行驶在等温线上,设计了以下的一组回报函数:
Figure FDA0003236610930000024
其中,rarrive=2为达到奖励函数,K0表示无人艇在出发点水域所采集到的温度,Kt代表当前t时刻无人艇所在位置的水温;如果Kt与K0的绝对差值小于等于阈值Tgoal,则说明无人艇在等温线搜寻范围之内,激活该函数;同时,为了引导无人艇不断朝向等温线航行,设置了一个转向函数:
rdirection=w1t-1t)+w2*|Kt-1-Kt|
其中,Kt-1代表了t-1时刻无人艇所在区域的水温,θt代表了当前无人艇航向与等温线的夹角,w1代表奖励系数,w2代表惩罚系数,两者值的大小均根据调参过程进行调整,若执行上一时刻的动作使得无人艇未行驶等温线上,调整惩罚系数进行惩罚;若执行上一时刻的动作使得无人艇行驶在等温线上,调整奖励系数给予一定的奖励;
步骤B.设计算法网络结构,结合以上的状态空间、动作空间以及回报函数,设计深度DDPG算法的策略网络和评价网络结构:
步骤B-1.策略网络采用一个输入与一个输出的深度卷积网络,其输入是环境状态信息,即水温变化梯度信息以及无人艇当前的运动状态信息,输出是无人艇的动作指令,即角速度,角速度的变化导致无人艇航向的变化,该结构具有两个隐藏层,第一层设置节点数为400,激活函数为softplus,第二层设置节点数是300,激活函数为tanh;
步骤B-2.评估网络采用两个输入与一个输出的深度卷积神经网络,其输入包括环境状态信息和策略网络输出的动作,输出则是当前策略的评价指标,即动作的Q值,进一步来说,首先,将状态信息输入到评估网络中,该网络第二层设置的节点数为400,第三层设置的节点数为300,同时,将动作矩阵也输入到评价网络中,其第二层的神经元节点数为300,最后,将状态空间矩阵输入的网络的第三层神经元与动作矩阵输入的网络的第二层神经元节点合并,经过ReLU激活函数,得出输出值,网络中所有神经元节点之间的连接方式均为全连接方式。
5.根据权利要4所述的一种面向海空协同观测任务的多智能体控制方法,其特征在于,步骤4中所述无人机对无人艇观测数据进行采集的工作步骤如下:
步骤C.MADDPG算法的马尔可夫决策过程:
步骤C-1定义状态空间:
S={dt(USV1,UAV),dt(USV2,UAV),...,dt(USVn,UAV)}
其中,dt(USVi,UAV)表示t时刻第i个无人艇与无人机之间的距离,一共有n个无人艇;
Figure FDA0003236610930000031
其中,(xgoal,ygoal)当前时刻无人机的位置坐标,(x,y)表示无人艇的位置坐标为;
步骤C-2定义动作空间:
Figure FDA0003236610930000032
其中,at表示表示t时刻第i个无人艇与无人机汇合的动作空间为:
Figure FDA0003236610930000033
其中,
Figure FDA0003236610930000035
at UAV分别代表t时刻无人艇和无人机的线速度;
步骤C-3.定义回报函数:
Figure FDA0003236610930000034
其中,rconverge表示汇合奖励函数,其取值是一个正值,dmax表示无人机能够采集无人艇上观测数据的最大距离,当USV1与无人机之间的dt USV1距离小于等于dmax时,即视为汇合成功,激活该函数;rdistance表示距离奖励函数,其用于引导USV1和无人机以最短时间、最小能量损的汇合;以当无人机和无人艇的距离越近,奖励越多为原则进行奖励,距离奖励函数表示为:
rdistance=λ1(dt-1-dt)-λ2|vt-1 UAV-vt UAV|
其中,λ1表示距离奖励系数,dt表示当前采样获得的USV1与无人机的距离,dt-1表示上一步的距离,将dt-1与上dt做差,如果差值为正,则说明USV1与无人机的距离越来越小时,上一步的动作使得两者接近,通过调整奖励系数给予一定的奖励;反之,说明上一步的动作使得两者远离,通过调整惩罚系数给予一定的惩罚,λ2表示惩罚系数,vt UAV表示t时刻无人机的线速度,当上一刻与当前的线速度变化大于预设阈值时,通过调整惩罚系数给予一定的惩罚;
步骤D.采用集中式训练、分布式执行的方式对多智能体系统进行训练:
步骤D-1.定义第i个智能体的随机策略梯度:
Figure FDA0003236610930000041
其中,J(·)表示总奖赏,ρπ(s)表示折现状态分布,θi是表示第i个智能体策略的参数,s表示全局观测量,ai表示第i个智能体的动作,πi表示第i个智能体的控制策略,
Figure FDA0003236610930000042
是第i个策略网络的参数,oi表示第i个智能体的观测值,即状态;
Figure FDA0003236610930000043
表示关于贴现状态分布ρ(s)的期望值,
Figure FDA0003236610930000044
是分值函数,πi(ai|on)表示一个在状态on对于各个动作ai的条件概率分布,
Figure FDA0003236610930000045
表示所有智能体的状态动作值函数集合,该值的输出是通过将所有智能体的动作和全局环境状态输入策略网络和评价网络中得到的;
步骤D-2.定义n个智能体的确定性策略梯度:
Figure FDA0003236610930000046
其中,函数J是用于衡量一个确定性策略μi的表现,θi μ是第i个确定性策略网络的参数,用一个卷积神经网络对μ函数进行模拟,这个网络被称为策略网络,ai=μi(oi)是一个观测值空间到动作值空间的映射,D表示经验回放池,用于存储所有智能体与环境交互的经验数据,每一条经验数据都是由一组(s,s′,a1,...,an,r1,...,rn)组成;
步骤D-3.定义评价网络逼近的目标函数:
Figure FDA0003236610930000051
其中,r代表回报函数,s′表示s状态下执行动作a后的下个状态,γ是折扣因子,用于计算未来的累计回报期望,μj、oj分别表示目标策略和目标观测值,
Figure FDA0003236610930000052
是由θi μ复制而来的目标策略网络参数在集中式训练方式下,采用时间差分思想以及目标网络思想对评价网络参数进行更新;
步骤D-4.计算损失函数:
Figure FDA0003236610930000053
其中,a′表示智能体在状态s′下所执行的动作;
步骤D-5.定义最大化策略集合的整体回报:
Figure FDA0003236610930000054
其中,unif(1,K)是一个从1到K均匀分布的数值集合,第i个智能体的策略μi是由k个子策略的集合组成,在每个回合的训练中只采用一个子策略
Figure FDA0003236610930000055
并对每个子策略k再构建一组子经验回放池Di (k),Ri(s,a)表示全局奖励函数;
步骤D-6.定义每个子策略的更新梯度:
Figure FDA0003236610930000056
其中,
Figure FDA0003236610930000057
表示动作值函数的梯度,输入所有智能体的动作a={a1,...,an}以及环境状态量s,
Figure FDA0003236610930000058
是子策略
Figure FDA0003236610930000059
下观测值空间到动作值空间的映射。
CN202111004160.XA 2021-08-30 2021-08-30 一种面向海空协同观测任务的多智能体控制方法 Active CN113741449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111004160.XA CN113741449B (zh) 2021-08-30 2021-08-30 一种面向海空协同观测任务的多智能体控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111004160.XA CN113741449B (zh) 2021-08-30 2021-08-30 一种面向海空协同观测任务的多智能体控制方法

Publications (2)

Publication Number Publication Date
CN113741449A true CN113741449A (zh) 2021-12-03
CN113741449B CN113741449B (zh) 2023-07-14

Family

ID=78733828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111004160.XA Active CN113741449B (zh) 2021-08-30 2021-08-30 一种面向海空协同观测任务的多智能体控制方法

Country Status (1)

Country Link
CN (1) CN113741449B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN115952958A (zh) * 2023-03-14 2023-04-11 珠江水利委员会珠江水利科学研究院 基于maddpg强化学习的水库群联合优化调度方法
CN116600265A (zh) * 2023-06-02 2023-08-15 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法
CN117103282A (zh) * 2023-10-20 2023-11-24 南京航空航天大学 一种基于matd3算法的双臂机器人协同运动控制方法
CN117782108A (zh) * 2024-02-27 2024-03-29 南京信息工程大学 应用于海洋中尺度漩涡探测的多无人机定位系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120183596A1 (en) * 2000-06-09 2012-07-19 Regulon, Inc. Encapsulation of Plasmid DNA (Lipogenes) and Therapeutic Agents with Nuclear Localization Signal/Fusogenic Peptide Conjugates into Targeted Liposome Complexes
CN204409128U (zh) * 2014-12-25 2015-06-24 贵州省威宁彝族回族苗族自治县气象局 人工影响天气监测监控指挥管理应用系统
CN109143870A (zh) * 2018-10-23 2019-01-04 宁波溪棠信息科技有限公司 一种多目标任务的控制方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
US20210116922A1 (en) * 2019-10-18 2021-04-22 Wuhan University Of Technology Integrated Automated Driving System for Maritime Autonomous Surface Ship (MASS)
CN112946657A (zh) * 2021-02-03 2021-06-11 南京信息工程大学 强对流天气中地面风场的识别方法
CN113064424A (zh) * 2021-03-17 2021-07-02 西安工业大学 一种改进ddpg算法的无人车路径规划方法
CN113112077A (zh) * 2021-04-14 2021-07-13 太原理工大学 基于多步预测深度强化学习算法的hvac控制系统
CN113110504A (zh) * 2021-05-12 2021-07-13 南京云智控产业技术研究院有限公司 一种基于强化学习和视线法的无人艇路径跟踪方法
CN113290557A (zh) * 2021-05-21 2021-08-24 南京信息工程大学 一种基于数据驱动的蛇形机器人控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120183596A1 (en) * 2000-06-09 2012-07-19 Regulon, Inc. Encapsulation of Plasmid DNA (Lipogenes) and Therapeutic Agents with Nuclear Localization Signal/Fusogenic Peptide Conjugates into Targeted Liposome Complexes
CN204409128U (zh) * 2014-12-25 2015-06-24 贵州省威宁彝族回族苗族自治县气象局 人工影响天气监测监控指挥管理应用系统
CN109143870A (zh) * 2018-10-23 2019-01-04 宁波溪棠信息科技有限公司 一种多目标任务的控制方法
US20210116922A1 (en) * 2019-10-18 2021-04-22 Wuhan University Of Technology Integrated Automated Driving System for Maritime Autonomous Surface Ship (MASS)
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN112946657A (zh) * 2021-02-03 2021-06-11 南京信息工程大学 强对流天气中地面风场的识别方法
CN113064424A (zh) * 2021-03-17 2021-07-02 西安工业大学 一种改进ddpg算法的无人车路径规划方法
CN113112077A (zh) * 2021-04-14 2021-07-13 太原理工大学 基于多步预测深度强化学习算法的hvac控制系统
CN113110504A (zh) * 2021-05-12 2021-07-13 南京云智控产业技术研究院有限公司 一种基于强化学习和视线法的无人艇路径跟踪方法
CN113290557A (zh) * 2021-05-21 2021-08-24 南京信息工程大学 一种基于数据驱动的蛇形机器人控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI-YE WANG,等: "Course Tracking Control for Smart Ships Based on A Deep Deterministic Policy Gradient-based Algorithm", 《2019 5TH INTERNATIONAL CONFERENCE ON TRANSPORTATION INFORMATION AND SAFETY (ICTIS)》 *
多南讯,等: "迈进高维连续空间:深度强化学习在机器人领域中的应用", 《机器人》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN115952958A (zh) * 2023-03-14 2023-04-11 珠江水利委员会珠江水利科学研究院 基于maddpg强化学习的水库群联合优化调度方法
CN115952958B (zh) * 2023-03-14 2023-07-11 珠江水利委员会珠江水利科学研究院 基于maddpg强化学习的水库群联合优化调度方法
CN116600265A (zh) * 2023-06-02 2023-08-15 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN116600265B (zh) * 2023-06-02 2024-04-05 东南大学 一种基于多智能体qmix算法的无人艇自组网路由方法
CN117103282A (zh) * 2023-10-20 2023-11-24 南京航空航天大学 一种基于matd3算法的双臂机器人协同运动控制方法
CN117103282B (zh) * 2023-10-20 2024-02-13 南京航空航天大学 一种基于matd3算法的双臂机器人协同运动控制方法
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法
CN117111620B (zh) * 2023-10-23 2024-03-29 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法
CN117782108A (zh) * 2024-02-27 2024-03-29 南京信息工程大学 应用于海洋中尺度漩涡探测的多无人机定位系统及方法
CN117782108B (zh) * 2024-02-27 2024-05-10 南京信息工程大学 应用于海洋中尺度漩涡探测的多无人机定位系统及方法

Also Published As

Publication number Publication date
CN113741449B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN113741449B (zh) 一种面向海空协同观测任务的多智能体控制方法
Chen et al. Path planning and obstacle avoiding of the USV based on improved ACO-APF hybrid algorithm with adaptive early-warning
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Cheng et al. Path planning and obstacle avoidance for AUV: A review
Wu A survey on population-based meta-heuristic algorithms for motion planning of aircraft
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN106773741A (zh) 一种无人船动力定位系统及方法
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN113033118B (zh) 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN114169066A (zh) 基于微纳星群抵近侦察的空间目标特性测量、侦察方法
Zhou et al. An improved beetle swarm optimization algorithm for the intelligent navigation control of autonomous sailing robots
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
Zhong et al. Particle swarm optimization with orientation angle-based grouping for practical unmanned surface vehicle path planning
Yao et al. Multi-USV cooperative path planning by window update based self-organizing map and spectral clustering
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
Zheng et al. DDPG based LADRC trajectory tracking control for underactuated unmanned ship under environmental disturbances
Song et al. Surface path tracking method of autonomous surface underwater vehicle based on deep reinforcement learning
Xu et al. Algorithms and applications of intelligent swarm cooperative control: A comprehensive survey
Tomera Swarm intelligence applied to identification of nonlinear ship steering model
CN116907452A (zh) 基于集群auv数据驱动的亚中尺度涡观测方法
CN114942643B (zh) 一种usv无人艇路径规划模型的构建方法及应用
CN115718497A (zh) 一种多无人艇避碰决策方法
Ebada Intelligent techniques-based approach for ship manoeuvring simulations and analysis: artificial neural networks application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant