CN114995446A - 一种无人船编队的自适应控制方法、装置、设备和介质 - Google Patents

一种无人船编队的自适应控制方法、装置、设备和介质 Download PDF

Info

Publication number
CN114995446A
CN114995446A CN202210696649.6A CN202210696649A CN114995446A CN 114995446 A CN114995446 A CN 114995446A CN 202210696649 A CN202210696649 A CN 202210696649A CN 114995446 A CN114995446 A CN 114995446A
Authority
CN
China
Prior art keywords
ship
decision
state information
formation
unmanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210696649.6A
Other languages
English (en)
Inventor
肖金超
王忠泽
刘继海
熊俊峰
桑彤彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute Of Industrial Intelligence
Shenyang Institute of Automation of CAS
Original Assignee
Guangzhou Institute Of Industrial Intelligence
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute Of Industrial Intelligence, Shenyang Institute of Automation of CAS filed Critical Guangzhou Institute Of Industrial Intelligence
Priority to CN202210696649.6A priority Critical patent/CN114995446A/zh
Publication of CN114995446A publication Critical patent/CN114995446A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请涉及无人船控制技术领域,公开了一种无人船编队的自适应控制方法、装置、设备和介质,其方法包括:基于预设的任务路径规划控制领航船进行行动;在领航船行动后,更新领航船的状态信息;获取每艘跟随船的状态信息,基于更新后的领航船的状态信息和每艘跟随船的状态信息,构成无人船编队的整体状态信息;基于目前的整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策。解决了现有的领航跟随法的多无人船编队控制方法具有模型与环境单一耦合,不能针对不同的环境利用历史数据选择行动决策的缺陷。

Description

一种无人船编队的自适应控制方法、装置、设备和介质
技术领域
本申请涉及无人船控制技术领域,尤其是涉及一种无人船编队的自适应控制方法、装置、设备和介质。
背景技术
近年来,随着各国对海洋科技的重视,水面船舶正向着智能化和无人化发展,水面无人船在科学研究、水域监测、海洋环境勘探、军事和其他民用领域发挥着越来越大的作用。但是海洋水域环境复杂多变,存在多种未知扰动,在面对多任务作业时,单一无人船无法较好实现目标,所以多无人船协同控制作业因其效率高、覆盖广、鲁棒性强等特点,成为各研究机构的研究热点。在多无人船协同控制领域,编队控制最为重要,目前最常用的编队方法为领航跟随编队方法。在领航跟随无人船编队控制系统中,其稳定性将会受到复杂的外界环境扰动影响,例如天气和气候的变化,水位的变化,风浪的影响,给无人船编队的稳定控制带来了极大的困难。
专利号CN114089761A公开了一种基于ROS的领航跟随者多无人船编队控制系统及其方法,包括控制模块、惯性测量模块、GPS模块、动力模块、电源模块、无线传输模块,其控制模块与惯性测量模块、GPS模块和动力模块相连;通过串口将位姿信息发送给上位机,上位机通过wifi将无人船的当前位置、姿态信息传输给远程计算机。该专利的模型的参数设置依赖已有环境,而实际应用中,模型运行效果对编队控制模型的参数具有高度敏感性,对于与参数不匹配的环境运行效果较差。
针对上述相关技术,现有的领航跟随法的多无人船编队控制方法具有模型与环境单一耦合,不能针对不同的环境利用历史数据选择行动决策的缺陷。
发明内容
为了解决现有的领航跟随法的多无人船编队控制方法具有模型与环境单一耦合,不能针对不同的环境利用历史数据选择行动决策的缺陷,本申请提供了一种无人船编队的自适应控制方法装置、设备和介质。
第一方面,本申请提供一种无人船编队的自适应控制方法。
本申请是通过以下技术方案得以实现的:一种无人船编队的自适应控制方法,包括:
基于预设的任务路径规划控制领航船进行行动;
在所述领航船行动后,更新所述领航船的状态信息;
获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息和所述每艘跟随船的状态信息,构成无人船编队的整体状态信息;
基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策;
所述决策表包括历史数据中的所述无人船编队的状态信息,及每一种状态下的不同的决策及对应的决策概率,所述最优决策为所述决策概率最大的决策;所述决策概率于每一次行动后均进行更新。
本申请在一较佳示例中可以进一步配置为:所述决策概率是在确定的所述无人船编队的状态S下,以往在该状态下采取决策π(A|S)获得的奖励值和总奖励值的比值,决策概率Pπ(A|S)的表达式为:
Figure BDA0003702864170000021
其中,
Figure BDA0003702864170000022
Figure BDA0003702864170000023
为航向的调整,
Figure BDA0003702864170000024
为速度的调整,γ为衰减系数且γ<1,T为当前时刻,t为历史中状态为S的时刻,R(St,At)为状态St依决策π(A|S)采取行动At获得的奖励值,G(T)为在状态S下所有执行决策获得的奖励值的总和。
本申请在一较佳示例中可以进一步配置为:所述基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策并以决策概率执行决策表中的最优决策中,所述最优决策的决策概率和所述探索概率的和为1。
本申请在一较佳示例中可以进一步配置为:所述总奖励值为历史数据中所有所述奖励值的总和,计算公式为:
G(T)=∑从0到T状态为SγT-tR(St,At)。
本申请在一较佳示例中可以进一步配置为:所述奖励值通过预设的奖励函数计算所得,所述奖励函数通过以下四个评价指标建立:无人船编队的集中程度r1,每艘跟随船与领航船速度的接近程度r2,每艘跟随船与领航船航向角的接近程度r3,无人船编队和目标点的接近程度r4
所述奖励函数的表达式如下:
Figure BDA0003702864170000025
Figure BDA0003702864170000031
其中i和j分别为所述无人船编队中的第i艘无人船和第j艘无人船且i≠j,n为所述无人船编队的船只总数,α1、α2、α3和α4为权重系数且α1234=1。
本申请在一较佳示例中可以进一步配置为:所述无人船之间的平均距离r1和所述无人船编队和目标点的接近程度r4为避免碰撞均引入最大安全距离s,计算公式如下:
Figure BDA0003702864170000032
Figure BDA0003702864170000033
其中Δx(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的横坐标差,Δy(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的纵坐标差,g(t)i为无人船编队中第i艘无人船距离目标点的距离。
本申请在一较佳示例中可以进一步配置为:所述在所述领航船行动后,更新所述领航船的状态信息具体为,使用领航船导航测量所述领航船的位置、速度、航向和距目标点的距离信息并更新;所述获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息,构成无人船编队的整体状态信息具体为,使用跟随船导航测量每艘所述跟随船的位置、速度、航向和距目标点的距离信息,所述领航船的状态信息和每艘所述跟随船的状态信息共同构成所述无人船编队的状态信息。
第二方面,本申请提供一种无人船编队的自适应控制装置。
本申请是通过以下技术方案得以实现的:一种无人船编队的自适应控制装置,包括:
控制模块:用于基于预设的任务路径规划控制领航船进行行动;
第一状态测量模块:用于在所述领航船行动后,更新所述领航船的状态信息;
第二状态测量模块:用于获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息,构成无人船编队的整体状态信息;
决策模块:用于基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策。
第三方面,本申请提供一种计算机设备。
本申请是通过以下技术方案得以实现的:一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述任意一种无人船编队的自适应控制方法的步骤。
第四方面,本申请提供一种计算机可读存储介质。
本申请是通过以下技术方案得以实现的:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种无人船编队的自适应控制方法的步骤。
通过采用上述技术方案,通过历史行动的奖励来更新决策概率,实现了一边执行已有模型一边更新决策概率以更新模型的同步进行,根据环境的不断变化,动态地调整的无人船编队的决策概率,解决了现有的领航跟随法的多无人船编队控制方法具有模型与环境单一耦合,不能针对不同的环境利用历史数据选择行动决策的缺陷。
附图说明
图1为本申请一个示例性实施例提供的基于领航跟随法的多无人船编队控制方法的流程示意图。
具体实施方式
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
以下结合附图1对本申请作进一步详细说明。
本申请实施例公开一种基于领航跟随法的多无人船编队控制方法。参照图1,无人船编队的自适应控制方法包括以下步骤:
步骤S1:基于预设的任务路径规划控制领航船进行行动;
步骤S2:在领航船行动后,更新领航船的状态信息;
领航船基于控制信号以对应的航向航行,领航船航行后,t时刻使用第i号领航船导航测量领航船的位置坐标x(t)i和y(t)i、速度v(t)i、航向θ(t)i和距目标点g(t)i信息并更新。
步骤S3:获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息和所述每艘跟随船的状态信息,构成无人船编队的整体状态信息;
使用跟随船导航测量每艘跟随船的位置、速度、航向和距目标点的距离信息,领航船的状态信息和每艘跟随船的状态信息共同构成无人船编队的状态信息。
步骤S4:基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策;
决策表包括历史数据中的无人船编队的状态信息,及每一种状态下的不同的决策及对应的决策概率;决策概率于每一次行动后均进行更新,在每一次行动后所采取的决策会产生新的奖励值,并对总奖励值进行更新,决策概率会基于新的总奖励值进行计算并更新。最优决策的决策概率为ε,探索概率为1-ε,依照概率1-ε探索可行的决策获取潜在的更优决策,以概率ε执行决策表中的最优决策。
从决策表中选取满足预设条件的决策,跟随船基于满足预设条件的决策进行行动具体为,从决策表中选取当前状态对应的决策中决策概率最高的决策,跟随船根据所选取的决策进行行动,具体包括航向的调整
Figure BDA0003702864170000051
和速度的调整
Figure BDA0003702864170000052
决策π(A,S),指的是在状态St下,依据决策π采取行为
Figure BDA0003702864170000053
从而使状态St变到状态St+1。但是不同环境带来不同的扰动,因此相同的决策下状态St+1也并不是确定量。
决策概率Pπ(A|S)为评价决策好坏的指标,越好的决策其决策概率越高,决策概率最高的决策成为最优决策。具体计算为:从0时刻到现在T时刻,所有状态为S行为为A获得的奖励的和除以G(T),即所有状态为S采取行为获得的奖励的和。对于每个状态S所有决策的决策概率总和为1。
决策概率Pπ(A|S)的表达式为:
Figure BDA0003702864170000054
其中,
Figure BDA0003702864170000061
Figure BDA0003702864170000062
为航向的调整,
Figure BDA0003702864170000063
为速度的调整,γ为衰减系数且γ<1,T为当前时刻,t为历史中状态为S的时刻,R(St,At)为状态St依决策π(A|S)采取行动At获得的奖励值,G(T)为在状态S下所有执行决策获得的奖励值的总和。
决策概率将所有状态相同采取行动相同的奖励值合并同类项,并计算其与总奖励值的比值,得到该状态下该行动的决策概率。
例如,对于某个状态S1,曾经采取过a、b和c三种不同的行动且次数各不相同,则将所有状态S1行动a的奖励值合并,所有状态S1行动b的奖励值合并,状态S1行动c的奖励值合并,并分别计算其决策概率。
总奖励值为历史数据中所有奖励值的总和,计算公式为:
G(T)=∑从0到T状态为SγT-tR(St,At)
其中,γ为衰减系数,γ<1。
因为环境有扰动信息,不同环境下相同状态、相同决策、采取相同行动导致的下一刻的状态也会不一样,即反馈的奖励值也会不一样。将所有状态为S行为为A获得的奖励的和作为更新的依据,再通过衰减机制γ,距离T越远衰减越大,这就使越陈旧的环境信息权重越小即对决策概率影响越小,那么更新的环境信息拥有更高的影响力。决策概率的更新就是在不断的适应环境,即使环境改变也拥有通过反馈向环境学习的自适应能力。
奖励值通过预设的奖励函数计算所得,所述奖励函数通过以下四个评价指标建立:无人船编队的集中程度r1,每艘跟随船与领航船速度的接近程度r2,每艘跟随船与领航船航向角的接近程度r3,无人船编队和目标点的接近程度r4
所述奖励函数的表达式如下:
Figure BDA0003702864170000064
Figure BDA0003702864170000065
其中i和j分别为所述无人船编队中的第i艘无人船和第j艘无人船且i≠j,n为所述无人船编队的船只总数,α1、α2、α3和α4为权重系数且α1234=1。
r1为无人船编队的集中程度,用于评价无人船编队中各船只的集中程度,表达式为:
Figure BDA0003702864170000071
其中Δx(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的横坐标差,Δy(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的纵坐标差,为了避免碰撞,r1中引入了最大安全距离s,保证每两艘船只之间的距离一定大于最大安全距离;
r2为每艘跟随船与领航船速度的接近程度,表达式为:
Figure BDA0003702864170000072
其中,Δv(t)i为无人船编队中每一艘跟随船和领航船之间的速度差;
r3为每艘跟随船与领航船航向角的接近程度,表达式为:
Figure BDA0003702864170000073
其中,Δθ(t)i为无人船编队中每一艘跟随船和领航船之间的航向差;
r4为无人船编队和目标点的接近程度,表达式为:
Figure BDA0003702864170000074
其中,g(t)i为无人船编队中每一艘船只距离目标点的距离,为了避免碰撞,r4中引入了最大安全距离s,保证每艘船只距离目标点的距离一定大于安全距离。
针对r1、r2、r3和r4四个评价指标,利用sigmod函数
Figure BDA0003702864170000075
做平滑处理,再利用四个权重系数α1、α2、α3和α4实现归一化处理,使R(St,At)取值范围为-1到1之间,负数为经过该决策后状态变差;正数为经过该决策后状态变好;评价最差为-1;评价最好为1。
在每一时刻的行动之后,决策概率以及预设的决策表已经基于当前时刻的决策进行更新,下一时刻基于更新后的决策表重复步骤S1步骤S4。
以r1、r2、r3和r4四个评价指标来评价每一次行动的优劣程度,形成该次行动的奖励值,并将同一状态下不同的行动进行合并同类项。再对状态下采取行动获得的奖励值依靠总建立函数归一化处理形成概率,该概率即为决策概率,作为以后时刻不同状态下不同行动的决策概率。在每一时刻无人船编队都会根据利用历史数据得到的决策概率进行决策并行动,且会计算本次行动的奖励值对总奖励值和决策概率进行更新。通过历史行动的奖励值来更新决策概率,实现了一边执行已有模型一边更新决策概率以更新模型的同步进行,根据环境的不断变化,动态地调整的无人船编队的决策概率。
实施例的实施原理为:在每一个时间点,领航船按照预设的计划路线进行行动,领航船的状态由领航船导航获得,领航船的状态改变之后,获取整个无人船队的整体状态信息,根据预设的决策概率,以及当前时刻的无人船编队的整体状态信息,每一艘跟随船会依照概率1-ε探索可行的决策获取潜在的更优决策,以概率ε执行决策表中的最优决策采取行动。每一艘跟随船采取行动后,对应计算该次行动的奖励值,以评价本次行动的优劣程度,并对总奖励值进行更新,再基于新获得的奖励值以及总奖励值,对决策概率进行更新,并更新预设的决策表。从第一时刻开始到完成无人船编队的整次行动,每一次行动均通过历史行动的奖励值来更新决策概率以决定对应状态下采取的决策,实现了一边执行已有模型一边更新决策概率以更新模型的同步进行,根据环境的不断变化,动态地调整的无人船编队的决策概率,解决了现有的领航跟随法的多无人船编队控制方法具有模型的参数设置依赖已有环境,不能针对不同的环境利用历史数据选择行动决策的缺陷。
本申请实施例还提供一种无人船编队的自适应控制装置。
该无人船编队的自适应控制装置,包括:
控制模块:用于基于预设的任务路径规划控制领航船进行行动;
第一状态测量模块:用于在所述领航船行动后,更新所述领航船的状态信息;
第二状态测量模块:用于获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息,构成无人船编队的整体状态信息;
决策模块:用于基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策。
关于一种无人船编队的自适应控制装置的具体限定可以参见上文中对于一种无人船编队的自适应控制方法的限定,在此不再赘述。上述一种无人船编队的自适应控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任意一种无人船编队的自适应控制方法。
在一个实施例中,提供了一种计算机可读存储介质,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤S1:基于预设的任务路径规划控制领航船进行行动;
步骤S2:在领航船行动后,更新所述领航船的状态信息;
步骤S3:获取每艘跟随船的状态信息,基于更新后的领航船的状态信息,构成无人船编队的整体状态信息;
步骤S4:基于目前的整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围。

Claims (10)

1.一种无人船编队的自适应控制方法,其特征在于,包括:
基于预设的任务路径规划控制领航船进行行动;
在所述领航船行动后,更新所述领航船的状态信息;
获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息和所述每艘跟随船的状态信息,构成无人船编队的整体状态信息;
基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策;
所述决策表包括历史数据中的所述无人船编队的状态信息,及每一种状态下的不同的决策及对应的决策概率,所述最优决策为所述决策概率最大的决策;所述决策概率于每一次行动后均进行更新。
2.根据权利要求1所述的无人船编队的自适应控制方法,其特征在于,所述决策概率是在确定的所述无人船编队的状态S下,以往在该状态下采取决策π(A|S)获得的奖励值和总奖励值的比值,决策概率Pπ(A|S)的表达式为:
Figure FDA0003702864160000011
其中,
Figure FDA0003702864160000012
Figure FDA0003702864160000013
为航向的调整,
Figure FDA0003702864160000014
为速度的调整,γ为衰减系数且γ<1,T为当前时刻,t为历史中状态为S的时刻,R(St,At)为状态St依决策π(A|S)采取行动At获得的奖励值,G(T)为在状态S下所有执行决策获得的奖励值的总和。
3.根据权利要求2所述的无人船编队的自适应控制方法,其特征在于,所述基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策中,所述最优决策的决策概率和所述探索概率的和为1。
4.根据权利要求3所述的无人船编队的自适应控制方法,其特征在于,所述总奖励值为历史数据中所有所述奖励值的总和,计算公式为:
G(T)=∑从0到T状态为SγT-tR(St,At)。
5.根据权利要求4所述的无人船编队的自适应控制方法,其特征在于,所述奖励值通过预设的奖励函数计算所得,所述奖励函数通过以下四个评价指标建立:无人船编队的集中程度r1,每艘跟随船与领航船速度的接近程度r2,每艘跟随船与领航船航向角的接近程度r3,无人船编队和目标点的接近程度r4
所述奖励函数的表达式如下:
Figure FDA0003702864160000021
Figure FDA0003702864160000022
其中i和j分别为所述无人船编队中的第i艘无人船和第j艘无人船且i≠j,n为所述无人船编队的船只总数,α1、α2、α3和α4为权重系数且α1234=1。
6.根据权利要求5所述的无人船编队的自适应控制方法,其特征在于所述无人船之间的平均距离r1和所述无人船编队和目标点的接近程度r4为避免碰撞均引入最大安全距离s,计算公式如下:
Figure FDA0003702864160000023
Figure FDA0003702864160000024
其中Δx(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的横坐标差,Δy(t)ij为无人船编队中第i和第j艘无人船之间于t时刻的纵坐标差,g(t)i为无人船编队中第i艘无人船距离目标点的距离。
7.根据权利要求6所述的无人船编队的自适应控制方法,其特征在于,所述在所述领航船行动后,更新所述领航船的状态信息具体为,使用领航船导航测量所述领航船的位置、速度、航向和距目标点的距离信息并更新;所述获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息,构成无人船编队的整体状态信息具体为,使用跟随船导航测量每艘所述跟随船的位置、速度、航向和距目标点的距离信息,所述领航船的状态信息和每艘所述跟随船的状态信息共同构成所述无人船编队的状态信息。
8.一种无人船编队的自适应控制装置,其特征在于,包括:
控制模块:用于基于预设的任务路径规划控制领航船进行行动;
第一状态测量模块:用于在所述领航船行动后,更新所述领航船的状态信息;
第二状态测量模块:用于获取每艘跟随船的状态信息,基于更新后的所述领航船的状态信息和所述每艘跟随船的状态信息,构成无人船编队的整体状态信息;
决策模块:用于基于目前的所述整体状态信息,依照探索概率探索潜在的更优决策或以决策概率执行决策表中的最优决策。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1至7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述方法的步骤。
CN202210696649.6A 2022-06-20 2022-06-20 一种无人船编队的自适应控制方法、装置、设备和介质 Pending CN114995446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210696649.6A CN114995446A (zh) 2022-06-20 2022-06-20 一种无人船编队的自适应控制方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210696649.6A CN114995446A (zh) 2022-06-20 2022-06-20 一种无人船编队的自适应控制方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN114995446A true CN114995446A (zh) 2022-09-02

Family

ID=83036035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210696649.6A Pending CN114995446A (zh) 2022-06-20 2022-06-20 一种无人船编队的自适应控制方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114995446A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170382A (zh) * 2023-10-11 2023-12-05 哈尔滨理工大学 一种适用于同向实时点位跟踪的双无人船协同控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117170382A (zh) * 2023-10-11 2023-12-05 哈尔滨理工大学 一种适用于同向实时点位跟踪的双无人船协同控制方法
CN117170382B (zh) * 2023-10-11 2024-04-26 哈尔滨理工大学 一种适用于同向实时点位跟踪的双无人船协同控制方法

Similar Documents

Publication Publication Date Title
US11429844B2 (en) Training policy neural networks using path consistency learning
US20220004191A1 (en) Usv formation path-following method based on deep reinforcement learning
CN108820157B (zh) 一种基于强化学习的船舶智能避碰方法
CN112100917B (zh) 一种基于专家对抗系统的智能船舶避碰仿真测试系统与方法
CN107589749B (zh) 水下机器人自主定位与节点地图构建方法
US20220019866A1 (en) Controlling robots using entropy constraints
CN102541062B (zh) 一种水下自主式航行器的局部路径规划方法
CN112180950B (zh) 一种基于强化学习的智能船舶自主避碰及路径规划方法
CN104049639B (zh) 一种基于支持向量回归机的无人艇抗浪涌控制装置和方法
Wang et al. An adaptive UKF based SLAM method for unmanned underwater vehicle
CN112033410A (zh) 移动机器人环境地图构建方法、系统及存储介质
CN110095120A (zh) 自治水下航行器在海洋环流下的生物启发自组织映射路径规划方法
CN114995446A (zh) 一种无人船编队的自适应控制方法、装置、设备和介质
CN111708856A (zh) 一种基于强化学习的车道线的众包数据分段融合方法
Du et al. A comparative study on active SLAM and autonomous exploration with particle filters
Zhang et al. Modified grey wolf optimizer-based support vector regression for ship maneuvering identification with full-scale trial
CN112556698B (zh) 船舶行为变化及异常识别方法、设备及介质
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
CN113503891B (zh) 一种sinsdvl对准校正方法、系统、介质及设备
CN110941263A (zh) 一种自主水下航行器路径规划方法和装置
Yue et al. A new search scheme using multi‐bee‐colony elite learning method for unmanned aerial vehicles in unknown environments
Guo et al. A Dynamic‐Weighted Attenuation Memory Extended Kalman Filter Algorithm and Its Application in the Underwater Positioning
CN112945238B (zh) 定量计算auv水面导航终点半径阈值的方法及装置
Li et al. Multi-AUV coverage path planning algorithm using side-scan sonar for maritime search
AU2021277598B2 (en) Radar display features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination