CN113799949B - 一种基于q学习的auv浮力调节方法 - Google Patents

一种基于q学习的auv浮力调节方法 Download PDF

Info

Publication number
CN113799949B
CN113799949B CN202010526724.5A CN202010526724A CN113799949B CN 113799949 B CN113799949 B CN 113799949B CN 202010526724 A CN202010526724 A CN 202010526724A CN 113799949 B CN113799949 B CN 113799949B
Authority
CN
China
Prior art keywords
state
buoyancy
action
auv
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010526724.5A
Other languages
English (en)
Other versions
CN113799949A (zh
Inventor
贾松力
林扬
朱兴华
孙铁
孙铁铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202010526724.5A priority Critical patent/CN113799949B/zh
Publication of CN113799949A publication Critical patent/CN113799949A/zh
Application granted granted Critical
Publication of CN113799949B publication Critical patent/CN113799949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63GOFFENSIVE OR DEFENSIVE ARRANGEMENTS ON VESSELS; MINE-LAYING; MINE-SWEEPING; SUBMARINES; AIRCRAFT CARRIERS
    • B63G8/00Underwater vessels, e.g. submarines; Equipment specially adapted therefor
    • B63G8/14Control of attitude or depth
    • B63G8/24Automatic depth adjustment; Safety equipment for increasing buoyancy, e.g. detachable ballast, floating bodies
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63GOFFENSIVE OR DEFENSIVE ARRANGEMENTS ON VESSELS; MINE-LAYING; MINE-SWEEPING; SUBMARINES; AIRCRAFT CARRIERS
    • B63G8/00Underwater vessels, e.g. submarines; Equipment specially adapted therefor
    • B63G8/001Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63GOFFENSIVE OR DEFENSIVE ARRANGEMENTS ON VESSELS; MINE-LAYING; MINE-SWEEPING; SUBMARINES; AIRCRAFT CARRIERS
    • B63G8/00Underwater vessels, e.g. submarines; Equipment specially adapted therefor
    • B63G8/001Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations
    • B63G2008/002Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations unmanned
    • B63G2008/004Underwater vessels adapted for special purposes, e.g. unmanned underwater vessels; Equipment specially adapted therefor, e.g. docking stations unmanned autonomously operating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于Q学习的AUV浮力调节方法,包括根据不同AUV的执行机构定义系统环境状态集、根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集,从而由此形成初始Q表;确定用以更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;学习过程中Q表各状态下最优动作对应的Q值会不断增加,依据充分学习的Q表可选取最优浮力调节动作。

Description

一种基于Q学习的AUV浮力调节方法
技术领域
本发明涉及AUV浮力调节技术领域,具体地说是一种基于Q学习的AUV浮力调节方法。
背景技术
当自主式水下潜器(Autonomous Underwater Vehicle,AUV)在水下定深巡航并进入稳态后,会带有一定的攻角(也即纵倾角),同时执行机构也会始终存在一个操控量(下文用舵角代表这个操控量,对于采用不同执行机构的AUV,此处的操控量会不同,但其本质是相同的)。攻角和舵角的存在会增加AUV的航行阻力,进而消耗能量,降低了AUV的有效航程和作业时间。此外,如果由于海水密度发生变化使AUV的正浮力超出一定范围,甚至可能造成AUV航行失控。因此需要浮力调节系统动态调整浮力和力矩,使AUV始终保持以较小的纵倾角和舵角航行。
目前,国内外浮力调节系统多采用PD控制、滑模控制等,但由于AUV在水下航行时受力较复杂,同时其运动学和动力学模型也存在一定的误差,因此通过其航行时的纵倾角和舵角很难准确分析AUV的实际衡重状态,进而也就难于据此得出实际的浮力调节量,这导致传统控制方法的鲁棒性和智能性不高。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于Q学习的AUV浮力调节方法,解决传统浮力调节方法鲁棒性和智能性不高等问题。
本发明解决其技术问题所采用的技术方案是:一种基于Q学习的AUV浮力调节方法,包括以下步骤:
根据不同AUV的执行机构构建系统环境状态集,根据浮力调节系统的能力及AUV的实际特性构建浮力调节动作集,从而形成初始Q表;
确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;
根据更新后的Q表选择浮力调节动作,调节AUV浮力。
所述系统环境状态集为:AUV纵倾角状态与执行机构操控量状态不同组合所对应的状态;其中,AUV纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。
所述纵倾角和执行机构操控量进行离散化处理,具体是根据各自的门限值将值域空间划分为3部分:小于门限值相反数部分、处于门限值区间内部分、大于门限值部分;使AUV稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。
所述浮力调节动作集包括:浮力调节和力矩调节的多种组合对应的调节动作,浮力调节和力矩调节的每次调节量限定为设定值。
所述Q表包括:基于系统环境状态集和浮力调节动作集的Q表中,行表示状态,列表示每个状态下可以执行的各个调节动作;各单元格中期望收益值Q(i,j)中的i表示状态的编号,j表示调节动作的编号。
所述确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表,包括以下步骤:
(1)等待航行稳态的建立,记录航行稳态下的纵倾角和执行机构操控量;当纵倾角的变化量和执行机构操控量的变化量均小于各自变化量阈值且持续设定时间的情况下,认为航行稳态;
(2)判断航行稳态下浮力调节系统是否处于理想状态;所述理想状态为纵倾角和执行机构操控量均处于各自门限值区间内部分时的状态;如果不处于理想状态,则执行根据epsilon贪婪策略选取的调节动作,转步骤(3);否则等待;
(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和执行机构操控量的变化情况计算奖励值,利用产生的奖励并根据如下Bellman公式对Q表进行更新:
Figure BDA0002533868760000021
其中,NewQ(si,aj)为更新后的Q值;Q(si,aj)为更新前的Q值;,其中,a表示采取动作aj后到达的新的状态si+1下可能采取的动作,A表示动作集,a∈A;α为学习率,R(si,aj)为在状态si执行调节动作aj转移至状态si+1所产生的瞬时奖励;γ为折扣率。
所述奖励值通过奖励函数获取,如下式所示:
Figure BDA0002533868760000031
其中,R为当前奖励值,Pi和Ri为当前稳态下的纵倾角和执行机构操控量,Pi-1和Ri-1为上一稳态下的纵倾角和执行机构操控量;
当纵倾角和执行机构操控量绝对值均变小时,则说明调节有效,给予正奖励,即+rValue;当纵倾角和执行机构操控量绝对值均变大时,说明调节起到了反作用,给予负奖励,即-rValue;其它情况均给予零奖励0。
所述根据更新后的Q表选择浮力调节动作具体为:
所述更新后的Q表通过Q学习的进行,各状态下最优动作对应的Q值增加,某种状态的最大Q值所对应的调节动作为选取的浮力调节动作。
本发明具有以下有益效果及优点:
1.方法简单,普适性好。本浮力调节控制方法能应用于采取不同浮力调节原理的各式浮力调节系统,同时浮力调节系统的性能参数和海洋环境等因素不会对方法的性能产生不良影响,方法具有较好的普适性。
2.实时性好,可靠性高。本浮力调节控制方法的实时性能满足应用需求,同时由于其基于机器学习的本质特征,具有良好的鲁棒性和适应性。
附图说明
图1是本发明的AUV浮力调节方法方案示意图;
图2是纵倾角状态离散化示意图;
图3是舵角状态离散化示意图;
具体实施方式
下面结合实施例对本发明做进一步的详细说明。
一种基于Q学习的AUV浮力调节方法,包括以下步骤:
步骤1:根据不同AUV的执行机构定义系统环境状态集,根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集,从而由此形成初始Q表;
步骤2:确定用以更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;
步骤3:根据充分训练的Q表选择浮力调节动作。
所述定义系统环境状态包括:
浮力调节的目的是将AUV稳态航行时的纵倾角和执行机构操控量(下文用舵角代表这个操控量,对于采用不同执行机构的AUV,此处的操控量会不同,但其本质是相同的)调节到小于一定门限值(下文假设纵倾角的门限值为Pt,舵角的门限值为Rt),在此应用场景下,系统状态由纵倾角和舵角的当前值所表征。由于纵倾角和舵角的值域是连续的,为避免强化学习时维数爆炸(也即状态数过多)问题,将纵倾角和舵角离散化处理。
所述纵倾角和舵角离散化处理包括:
离散化的方法为根据各自的门限值将其值域空间划分为3部分:(1)小于门限值相反数部分;(2)处于门限值区间内部分;(3)大于门限值部分。进行离散化处理之后,浮力调节的目的可重新表述为:将AUV稳态航行时的纵倾角和舵角调节到绝对值同时小于相应门限值的状态。
所述定义浮力调节动作包括:
浮力调节动作为浮力调节和力矩调节的各种组合,由于调节量为连续量,理论上有无数种动作。为解决动作数无限问题,采取将每次的调节量限定为特定值(下文假设每次浮力调节量为Ft,力矩调节量为Mt)的方法,这个特定值应具有适度的大小,既要保证单次调节能产生较显著的效果,又不至于太大使AUV衡重状态发生过大变化,具体应用时可根据浮力调节系统的能力并结合AUV的实际特性进行选取。
浮力调节系统包括对浮力的调节和对力矩的调节。对浮力的调节一般包括吸排水式和吸排油式两种,其本质特征均是通过改变AUV的重力或浮力进而去改变AUV的正浮力,本方法均可以直接应用;对AUV静力矩的改变有两种方式,一种是提供直接手段的相对复杂的系统,例如通过前后油箱互相传油产生附加抬艏或低艏力矩,另一种是不提供直接手段的相对简单的浮力调节系统,对于前者,本方法可以直接应用,而后者由于不提供直接改变静力矩的手段,浮力调节动作定义方法会有所不同但原理是一样的,且动作数更少,从而Q表规模更小,进而学习过程会更快速。
所述形成初始Q表包括:
基于前述状态集和动作集定义的Q表中行表示状态,列表示每个状态下可以执行的各个调节动作,各单元格中期望收益值Q(i,j)中的i表示状态的编号,j表示行动的编号,例如Q(1,1)表示在状态s1下执行行动a1的期望收益值。学习开始时将Q表各项赋一个较小的随机数作为初值,随着学习的深入进行,各状态下最优动作对应的Q值会不断增加,这样该动作被选取的概率也会相应增加。
所述用以更新Q表的奖励机制包括:
采取监视纵倾角和舵角的变化量是否持续小于一定门限的方法来感知新航行稳态的建立。基于此方法,确定的奖励机制如下:(1)等待航行稳态的建立,记录航行稳态下的纵倾角和舵角;(2)判断航行稳态下系统是否处于理想状态,如果不处于理想状态,则执行根据前述epsilon贪婪策略选取的调节动作,转步骤3;否则什么也不做;(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和舵角的变化情况计算奖励值,利用产生的奖励并根据如下Bellman公式对Q表进行更新。
Figure BDA0002533868760000051
其中,NewQ(si,aj)为更新后的Q值;Q(si,aj)为更新前的Q值;maxQ(si+1,a)表示采取动作aj后到达的新的状态si+1下可能采取的各动作对应的Q值中的最大值,a表示采取动作aj后到达的新的状态si+1下可能采取的动作,A表示动作集,a∈Aα为学习率,是控制学习速度的参数,α越大学习的收敛速度越快,但α过大会导致学习过程震荡,达不到预期学习效果;R(si,aj)为在状态si执行动作aj转移至状态si+1所产生的瞬时奖励;γ为折扣率,取值在0到1之间,如果γ越接近于0,智能体更趋向于仅仅考虑即时奖励,如果γ更接近于1,智能体将以更大的权重考虑未来的奖励。
奖励函数如下式所示:
Figure BDA0002533868760000061
其中R为当前奖励值,Pi和Ri为当前稳态下的纵倾角和舵角,Pi-1和Ri-1为上一稳态下的纵倾角和舵角。也即当纵倾角和舵角绝对值均变小时,则说明调节有效,给予正奖励(+rValue);当纵倾角和舵角绝对值均变大时,说明调节起到了反作用,给予负奖励(-rValue);其它情况均给予零奖励(0)。
如图1所示是本发明的AUV浮力调节方法实现流程图。
根据AUV执行机构的不同定义系统环境状态集、根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集,从而由此形成初始Q表,定义奖励函数;确定用以更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;学习过程中Q表各状态下最优动作对应的Q值会不断增加,依据充分学习的Q表可选取最优浮力调节动作。
表1.系统状态集定义表
Figure BDA0002533868760000062
本实施方式中AUV执行机构操作量以舵角为例,对于采用不同执行机构的AUV,此处的操控量会不同,但其本质是相同的。如图2和图3所示为纵倾角和舵角离散化处理的示意图,当纵倾角小于-Pt度时,状态记作P0,当纵倾角大于等于-Pt度且小于等于Pt度时,状态记作P1,当纵倾角大于Pt度时,状态记作P2;同理舵角状态也分为R0、R1和R2。离散化处理后的系统状态集如表1所示,共包括9个状态,s1~s9。例如当纵倾角大于Pt度(处于P2)且舵角小于-Rt度(处于R0)时,此时系统状态记作s3。需要说明的是,上述离散化处理相关变量的门限值可根据实际需要进行调整,其原理都是一样的。
表2.动作集定义表
Figure BDA0002533868760000071
浮力调节动作为浮力调节和力矩调节的各种组合,浮力增大Ft升记为动作F0,浮力不变记为动作F1,浮力减小Ft升记为动作F2;力矩增大Mt升记为动作M0,力矩不变记为动作M1,力矩减小Mt升记为动作M2。离散化处理后的动作集如表2所示,共包括9个动作,a1~a9。例如保持浮力不变(动作F1)且力矩减小Mt升(动作M2)的动作记作a8。需要说明的是,这里所说的浮力增大Ft升和力矩增大Mt升等为简化说法,因为实际产生的附加浮力和力矩与油的密度、海水的密度和储油器的相对位置关系均相关,但具体数值跟方法研究无关,因此采取了这种简化说法。
表3.由状态集和动作集确定的Q表
Figure BDA0002533868760000072
基于前述状态集和动作集定义的Q表如表3所示,其中行表示状态,列表示每个状态下可以执行的各个调节动作,表中各单元格中期望收益值Q(i,j)中的i表示状态的编号,j表示行动的编号,例如Q(1,1)表示在状态s1下执行行动a1的期望收益值。学习开始时将Q表各项赋一个较小的随机数作为初值,随着学习的深入进行,各状态下最优动作对应的Q值会不断增加,这样该动作被选取的概率也会相应增加。
动作选择遵从epsilon贪婪策略,即每次以ε的概率选取随机动作,以1-ε概率选取最优动作。ε值开始时设定为0.1,之后随着智能体对Q值较有把握后逐渐减小。
上述动作选择策略如下式所示,先生成一个随机数rand,若其值大于ε则根据现有Q表信息选择当前状态下的最优动作,若其值小于ε则从当前状态下动作集中随机选取1个动作,以进行探索。
Figure BDA0002533868760000081
其中AS为遵从epsilon贪婪策略选择的动作,AR为从动作集中随机选取的动作,AQ为利用当前Q表信息选取的最优动作,rand为生成的随机数。
当按照epsilon贪婪策略选取一个浮力调节动作并执行后,由于AUV的正浮力和(或)静力矩发生了变化(除执行了浮力和力矩均不变化的行动a5外),因此其将重新进入新的航行稳态。由于重新进入航行稳态需要一定的时间且不固定,可采取监视纵倾角和舵角的变化量是否持续小于一定门限的方法来感知新航行稳态的建立。基于此方法,确定的奖励机制如下:(1)等待航行稳态的建立,记录航行稳态下的纵倾角和舵角;(2)判断航行稳态下系统是否处于状态s5,如果不处于状态s5,则执行根据前述epsilon贪婪策略选取的调节动作,转步骤3;否则什么也不做;(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和舵角的变化情况计算奖励值,利用产生的奖励并根据Bellman公式对Q表进行更新。
奖励函数如下式所示:
Figure BDA0002533868760000091
其中R为当前奖励值,Pi和Ri为当前稳态下的纵倾角和舵角,Pi-1和Ri-1为上一稳态下的纵倾角和舵角。也即当纵倾角和舵角绝对值均变小时,则说明调节有效,给予正奖励(+100);当纵倾角和舵角绝对值均变大时,说明调节起到了反作用,给予负奖励(-100);其它情况均给予零奖励(0)。

Claims (6)

1.一种基于Q学习的AUV浮力调节方法,其特征在于,包括以下步骤:
根据不同AUV的执行机构构建系统环境状态集,根据浮力调节系统的能力及AUV的实际特性构建浮力调节动作集,从而形成初始Q表;
确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;
根据更新后的Q表选择浮力调节动作,调节AUV浮力;
所述确定用于更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表,包括以下步骤:
(1)等待航行稳态的建立,记录航行稳态下的纵倾角和执行机构操控量;当纵倾角的变化量和执行机构操控量的变化量均小于各自变化量阈值且持续设定时间的情况下,认为航行稳态;
(2)判断航行稳态下浮力调节系统是否处于理想状态;所述理想状态为纵倾角和执行机构操控量均处于各自门限值区间内部分时的状态;如果不处于理想状态,则执行根据epsilon贪婪策略选取的调节动作,转步骤(3);否则等待;
(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和执行机构操控量的变化情况计算奖励值,利用产生的奖励并根据如下Bellman公式对Q表进行更新:
Figure FDA0003669251200000011
其中,NewQ(si,aj)为更新后的Q值;Q(si,aj)为更新前的Q值;maxQ(si+1,a)表示采取动作aj后到达的新的状态si+1下可能采取的各动作对应的Q值中的最大值,其中,a表示采取动作aj后到达的新的状态si+1下可能采取的动作,A表示动作集,a∈A;α为学习率,R(si,aj)为在状态si执行调节动作aj转移至状态si+1所产生的瞬时奖励;γ为折扣率;
所述奖励值通过奖励函数获取,如下式所示:
Figure FDA0003669251200000021
其中,R为当前奖励值,Pi和Ri为当前稳态下的纵倾角和执行机构操控量,Pi-1和Ri-1为上一稳态下的纵倾角和执行机构操控量;
当纵倾角和执行机构操控量绝对值均变小时,则说明调节有效,给予正奖励,即+rValue;当纵倾角和执行机构操控量绝对值均变大时,说明调节起到了反作用,给予负奖励,即-rValue;其它情况均给予零奖励(0)。
2.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述系统环境状态集为:AUV纵倾角状态与执行机构操控量状态不同组合所对应的状态;其中,AUV纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。
3.根据权利要求2所述的基于Q学习的AUV浮力调节方法,其特征在于:所述纵倾角和执行机构操控量进行离散化处理,具体是根据各自的门限值将值域空间划分为3部分:小于门限值相反数部分、处于门限值区间内部分、大于门限值部分;使AUV稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。
4.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述浮力调节动作集包括:浮力调节和力矩调节的多种组合对应的调节动作,浮力调节和力矩调节的每次调节量限定为设定值。
5.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述Q表包括:基于系统环境状态集和浮力调节动作集的Q表中,行表示状态,列表示每个状态下可以执行的各个调节动作;各单元格中期望收益值Q(i,j)中的i表示状态的编号,j表示调节动作的编号。
6.根据权利要求1所述的基于Q学习的AUV浮力调节方法,其特征在于:所述根据更新后的Q表选择浮力调节动作具体为:
所述更新后的Q表通过Q学习的进行,各状态下最优动作对应的Q值增加,某种状态的最大Q值所对应的调节动作为选取的浮力调节动作。
CN202010526724.5A 2020-06-11 2020-06-11 一种基于q学习的auv浮力调节方法 Active CN113799949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010526724.5A CN113799949B (zh) 2020-06-11 2020-06-11 一种基于q学习的auv浮力调节方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010526724.5A CN113799949B (zh) 2020-06-11 2020-06-11 一种基于q学习的auv浮力调节方法

Publications (2)

Publication Number Publication Date
CN113799949A CN113799949A (zh) 2021-12-17
CN113799949B true CN113799949B (zh) 2022-07-26

Family

ID=78891931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010526724.5A Active CN113799949B (zh) 2020-06-11 2020-06-11 一种基于q学习的auv浮力调节方法

Country Status (1)

Country Link
CN (1) CN113799949B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104670439A (zh) * 2013-11-27 2015-06-03 中国科学院沈阳自动化研究所 一种auv的浮力调节方法
CN106542071A (zh) * 2016-11-28 2017-03-29 哈尔滨工程大学 用于长航程auv的浮力及姿态均衡装置及控制方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108116631A (zh) * 2016-11-30 2018-06-05 中国科学院沈阳自动化研究所 一种浮力调节装置的浮力自调整控制方法
KR20180083080A (ko) * 2017-01-12 2018-07-20 신동명 수중드론을 이용한 미사일 사전탐지 시스템 및 이의 운용방법
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109828463A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种海流干扰自适应波浪滑翔器艏向控制方法
CN109933080A (zh) * 2017-12-15 2019-06-25 中国科学院沈阳自动化研究所 一种具有浮力调节功能的水下机器人潜浮运动控制方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110716575A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 基于深度双q网络强化学习的uuv实时避碰规划方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104670439A (zh) * 2013-11-27 2015-06-03 中国科学院沈阳自动化研究所 一种auv的浮力调节方法
CN106542071A (zh) * 2016-11-28 2017-03-29 哈尔滨工程大学 用于长航程auv的浮力及姿态均衡装置及控制方法
CN108116631A (zh) * 2016-11-30 2018-06-05 中国科学院沈阳自动化研究所 一种浮力调节装置的浮力自调整控制方法
KR20180083080A (ko) * 2017-01-12 2018-07-20 신동명 수중드론을 이용한 미사일 사전탐지 시스템 및 이의 운용방법
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109933080A (zh) * 2017-12-15 2019-06-25 中国科学院沈阳自动化研究所 一种具有浮力调节功能的水下机器人潜浮运动控制方法
CN108820157A (zh) * 2018-04-25 2018-11-16 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN108572654A (zh) * 2018-04-25 2018-09-25 哈尔滨工程大学 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109828463A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种海流干扰自适应波浪滑翔器艏向控制方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110716575A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 基于深度双q网络强化学习的uuv实时避碰规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习的移动机器人自适应模型研究;岳文应;《中国优秀硕士学位论文全文数据库》;20180615;全文 *

Also Published As

Publication number Publication date
CN113799949A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
EP2536999B1 (en) Fault tolerant vessel stabiliser control system
CN110597069B (zh) 一种基于rbf神经网络的水下机器人自适应区域动力定位控制方法
CN109901403A (zh) 一种自主水下机器人神经网络s面控制方法
CN108319140B (zh) 一种重定义输出式无模型自适应航向控制方法及系统
CN111708280B (zh) 一种考虑执行器故障的船舶路径跟踪事件触发控制器方法
CN106325071A (zh) 一种基于事件驱动的广义预测自适应补给船航向控制方法
CN109240280B (zh) 基于强化学习的锚泊辅助动力定位系统控制方法
CN110333658B (zh) 一种带输入约束和漂角补偿的欠驱动船舶航向控制方法
CN101881970B (zh) 船舶双舵同步控制方法
CN112947494B (zh) 一种基于模糊pid的船舶自动靠泊控制方法
CN112213948B (zh) 一种基于mpc的船舶航速协同控制方法
CN115113524B (zh) 一种基于干预lvs制导的asv多端口事件触发路径跟踪控制方法
CN113110504A (zh) 一种基于强化学习和视线法的无人艇路径跟踪方法
Zhou et al. Adaptive robust tracking control for underwater gliders with uncertainty and time-varying input delay
CN113799949B (zh) 一种基于q学习的auv浮力调节方法
CN111427356A (zh) 一种船舶航向区间控制方法和系统
CN116819950B (zh) 一种船舶与浮式海洋平台动力定位控制方法及系统
CN113009824B (zh) 变稳船自适应变稳控制方法、系统和存储介质
CN111813143B (zh) 一种基于强化学习的水下滑翔机智能控制系统及方法
CN115755891A (zh) 一种高海况下近水面航行器运动控制方法
Liu Adaptive sliding mode control for ship autopilot with speed keeping
CN112859891B (zh) 一种基于粒子群算法优化自适应滑模控制参数的auv航向角控制方法
CN115438570A (zh) 基于ga-bp神经网络的车辆动态油耗预测模型方法
CN114384900A (zh) 内河水面自主船舶航行驾驶方法、装置及存储介质
CN117991634A (zh) 一种自适应控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant