CN113799949B

CN113799949B - 一种基于q学习的auv浮力调节方法

Info

Publication number: CN113799949B
Application number: CN202010526724.5A
Authority: CN
Inventors: 贾松力; 林扬; 朱兴华; 孙铁; 孙铁铭
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2022-07-26
Anticipated expiration: 2040-06-11
Also published as: CN113799949A

Abstract

本发明公开了一种基于Q学习的AUV浮力调节方法，包括根据不同AUV的执行机构定义系统环境状态集、根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集，从而由此形成初始Q表；确定用以更新Q表的奖励机制，根据epsilon贪婪策略选择浮力调节动作，根据产生的奖励更新Q表；学习过程中Q表各状态下最优动作对应的Q值会不断增加，依据充分学习的Q表可选取最优浮力调节动作。

Description

一种基于Q学习的AUV浮力调节方法

技术领域

本发明涉及AUV浮力调节技术领域，具体地说是一种基于Q学习的AUV浮力调节方法。

背景技术

当自主式水下潜器(Autonomous Underwater Vehicle，AUV)在水下定深巡航并进入稳态后，会带有一定的攻角(也即纵倾角)，同时执行机构也会始终存在一个操控量(下文用舵角代表这个操控量，对于采用不同执行机构的AUV，此处的操控量会不同，但其本质是相同的)。攻角和舵角的存在会增加AUV的航行阻力，进而消耗能量，降低了AUV的有效航程和作业时间。此外，如果由于海水密度发生变化使AUV的正浮力超出一定范围，甚至可能造成AUV航行失控。因此需要浮力调节系统动态调整浮力和力矩，使AUV始终保持以较小的纵倾角和舵角航行。

目前，国内外浮力调节系统多采用PD控制、滑模控制等，但由于AUV在水下航行时受力较复杂，同时其运动学和动力学模型也存在一定的误差，因此通过其航行时的纵倾角和舵角很难准确分析AUV的实际衡重状态，进而也就难于据此得出实际的浮力调节量，这导致传统控制方法的鲁棒性和智能性不高。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于Q学习的AUV浮力调节方法，解决传统浮力调节方法鲁棒性和智能性不高等问题。

本发明解决其技术问题所采用的技术方案是：一种基于Q学习的AUV浮力调节方法，包括以下步骤：

根据不同AUV的执行机构构建系统环境状态集，根据浮力调节系统的能力及AUV的实际特性构建浮力调节动作集，从而形成初始Q表；

确定用于更新Q表的奖励机制，根据epsilon贪婪策略选择浮力调节动作，根据产生的奖励更新Q表；

根据更新后的Q表选择浮力调节动作，调节AUV浮力。

所述系统环境状态集为：AUV纵倾角状态与执行机构操控量状态不同组合所对应的状态；其中，AUV纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。

所述纵倾角和执行机构操控量进行离散化处理，具体是根据各自的门限值将值域空间划分为3部分：小于门限值相反数部分、处于门限值区间内部分、大于门限值部分；使AUV稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。

所述浮力调节动作集包括：浮力调节和力矩调节的多种组合对应的调节动作，浮力调节和力矩调节的每次调节量限定为设定值。

所述Q表包括：基于系统环境状态集和浮力调节动作集的Q表中，行表示状态，列表示每个状态下可以执行的各个调节动作；各单元格中期望收益值Q(i,j)中的i表示状态的编号，j表示调节动作的编号。

所述确定用于更新Q表的奖励机制，根据epsilon贪婪策略选择浮力调节动作，根据产生的奖励更新Q表，包括以下步骤：

(1)等待航行稳态的建立，记录航行稳态下的纵倾角和执行机构操控量；当纵倾角的变化量和执行机构操控量的变化量均小于各自变化量阈值且持续设定时间的情况下，认为航行稳态；

(2)判断航行稳态下浮力调节系统是否处于理想状态；所述理想状态为纵倾角和执行机构操控量均处于各自门限值区间内部分时的状态；如果不处于理想状态，则执行根据epsilon贪婪策略选取的调节动作，转步骤(3)；否则等待；

(3)重新等待航行稳态的建立，根据新航行稳态和前一航行稳态下纵倾角和执行机构操控量的变化情况计算奖励值，利用产生的奖励并根据如下Bellman公式对Q表进行更新：

其中，NewQ(s_i,a_j)为更新后的Q值；Q(s_i,a_j)为更新前的Q值；，其中，a表示采取动作a_j后到达的新的状态s_i+1下可能采取的动作，A表示动作集，a∈A；α为学习率，R(s_i,a_j)为在状态s_i执行调节动作a_j转移至状态s_i+1所产生的瞬时奖励；γ为折扣率。

所述奖励值通过奖励函数获取，如下式所示：

其中，R为当前奖励值，P_i和R_i为当前稳态下的纵倾角和执行机构操控量，P_i-1和R_i-1为上一稳态下的纵倾角和执行机构操控量；

当纵倾角和执行机构操控量绝对值均变小时，则说明调节有效，给予正奖励，即+rValue；当纵倾角和执行机构操控量绝对值均变大时，说明调节起到了反作用，给予负奖励，即-rValue；其它情况均给予零奖励0。

所述根据更新后的Q表选择浮力调节动作具体为：

所述更新后的Q表通过Q学习的进行，各状态下最优动作对应的Q值增加，某种状态的最大Q值所对应的调节动作为选取的浮力调节动作。

本发明具有以下有益效果及优点：

1.方法简单，普适性好。本浮力调节控制方法能应用于采取不同浮力调节原理的各式浮力调节系统，同时浮力调节系统的性能参数和海洋环境等因素不会对方法的性能产生不良影响，方法具有较好的普适性。

2.实时性好，可靠性高。本浮力调节控制方法的实时性能满足应用需求，同时由于其基于机器学习的本质特征，具有良好的鲁棒性和适应性。

附图说明

图1是本发明的AUV浮力调节方法方案示意图；

图2是纵倾角状态离散化示意图；

图3是舵角状态离散化示意图；

具体实施方式

下面结合实施例对本发明做进一步的详细说明。

一种基于Q学习的AUV浮力调节方法，包括以下步骤：

步骤1：根据不同AUV的执行机构定义系统环境状态集，根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集，从而由此形成初始Q表；

步骤2：确定用以更新Q表的奖励机制，根据epsilon贪婪策略选择浮力调节动作，根据产生的奖励更新Q表；

步骤3：根据充分训练的Q表选择浮力调节动作。

所述定义系统环境状态包括：

浮力调节的目的是将AUV稳态航行时的纵倾角和执行机构操控量(下文用舵角代表这个操控量，对于采用不同执行机构的AUV，此处的操控量会不同，但其本质是相同的)调节到小于一定门限值(下文假设纵倾角的门限值为P_t，舵角的门限值为R_t)，在此应用场景下，系统状态由纵倾角和舵角的当前值所表征。由于纵倾角和舵角的值域是连续的，为避免强化学习时维数爆炸(也即状态数过多)问题，将纵倾角和舵角离散化处理。

所述纵倾角和舵角离散化处理包括：

离散化的方法为根据各自的门限值将其值域空间划分为3部分：(1)小于门限值相反数部分；(2)处于门限值区间内部分；(3)大于门限值部分。进行离散化处理之后，浮力调节的目的可重新表述为：将AUV稳态航行时的纵倾角和舵角调节到绝对值同时小于相应门限值的状态。

所述定义浮力调节动作包括：

浮力调节动作为浮力调节和力矩调节的各种组合，由于调节量为连续量，理论上有无数种动作。为解决动作数无限问题，采取将每次的调节量限定为特定值(下文假设每次浮力调节量为F_t，力矩调节量为M_t)的方法，这个特定值应具有适度的大小，既要保证单次调节能产生较显著的效果，又不至于太大使AUV衡重状态发生过大变化，具体应用时可根据浮力调节系统的能力并结合AUV的实际特性进行选取。

浮力调节系统包括对浮力的调节和对力矩的调节。对浮力的调节一般包括吸排水式和吸排油式两种，其本质特征均是通过改变AUV的重力或浮力进而去改变AUV的正浮力，本方法均可以直接应用；对AUV静力矩的改变有两种方式，一种是提供直接手段的相对复杂的系统，例如通过前后油箱互相传油产生附加抬艏或低艏力矩，另一种是不提供直接手段的相对简单的浮力调节系统，对于前者，本方法可以直接应用，而后者由于不提供直接改变静力矩的手段，浮力调节动作定义方法会有所不同但原理是一样的，且动作数更少，从而Q表规模更小，进而学习过程会更快速。

所述形成初始Q表包括：

基于前述状态集和动作集定义的Q表中行表示状态，列表示每个状态下可以执行的各个调节动作，各单元格中期望收益值Q(i,j)中的i表示状态的编号，j表示行动的编号，例如Q(1,1)表示在状态s₁下执行行动a₁的期望收益值。学习开始时将Q表各项赋一个较小的随机数作为初值，随着学习的深入进行，各状态下最优动作对应的Q值会不断增加，这样该动作被选取的概率也会相应增加。

所述用以更新Q表的奖励机制包括：

采取监视纵倾角和舵角的变化量是否持续小于一定门限的方法来感知新航行稳态的建立。基于此方法，确定的奖励机制如下：(1)等待航行稳态的建立，记录航行稳态下的纵倾角和舵角；(2)判断航行稳态下系统是否处于理想状态，如果不处于理想状态，则执行根据前述epsilon贪婪策略选取的调节动作，转步骤3；否则什么也不做；(3)重新等待航行稳态的建立，根据新航行稳态和前一航行稳态下纵倾角和舵角的变化情况计算奖励值，利用产生的奖励并根据如下Bellman公式对Q表进行更新。

其中，NewQ(s_i,a_j)为更新后的Q值；Q(s_i,a_j)为更新前的Q值；maxQ(s_i+1,a)表示采取动作a_j后到达的新的状态s_i+1下可能采取的各动作对应的Q值中的最大值，a表示采取动作a_j后到达的新的状态s_i+1下可能采取的动作，A表示动作集，a∈Aα为学习率，是控制学习速度的参数，α越大学习的收敛速度越快，但α过大会导致学习过程震荡，达不到预期学习效果；R(s_i,a_j)为在状态s_i执行动作a_j转移至状态s_i+1所产生的瞬时奖励；γ为折扣率，取值在0到1之间，如果γ越接近于0，智能体更趋向于仅仅考虑即时奖励，如果γ更接近于1，智能体将以更大的权重考虑未来的奖励。

奖励函数如下式所示：

其中R为当前奖励值，P_i和R_i为当前稳态下的纵倾角和舵角，P_i-1和R_i-1为上一稳态下的纵倾角和舵角。也即当纵倾角和舵角绝对值均变小时，则说明调节有效，给予正奖励(+rValue)；当纵倾角和舵角绝对值均变大时，说明调节起到了反作用，给予负奖励(-rValue)；其它情况均给予零奖励(0)。

如图1所示是本发明的AUV浮力调节方法实现流程图。

根据AUV执行机构的不同定义系统环境状态集、根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集，从而由此形成初始Q表，定义奖励函数；确定用以更新Q表的奖励机制，根据epsilon贪婪策略选择浮力调节动作，根据产生的奖励更新Q表；学习过程中Q表各状态下最优动作对应的Q值会不断增加，依据充分学习的Q表可选取最优浮力调节动作。

表1.系统状态集定义表

本实施方式中AUV执行机构操作量以舵角为例，对于采用不同执行机构的AUV，此处的操控量会不同，但其本质是相同的。如图2和图3所示为纵倾角和舵角离散化处理的示意图，当纵倾角小于-P_t度时，状态记作P₀，当纵倾角大于等于-P_t度且小于等于P_t度时,状态记作P₁，当纵倾角大于P_t度时,状态记作P₂；同理舵角状态也分为R₀、R₁和R₂。离散化处理后的系统状态集如表1所示，共包括9个状态，s₁～s₉。例如当纵倾角大于P_t度(处于P₂)且舵角小于-R_t度(处于R₀)时，此时系统状态记作s₃。需要说明的是，上述离散化处理相关变量的门限值可根据实际需要进行调整，其原理都是一样的。

表2.动作集定义表

浮力调节动作为浮力调节和力矩调节的各种组合，浮力增大F_t升记为动作F₀，浮力不变记为动作F₁，浮力减小F_t升记为动作F₂；力矩增大M_t升记为动作M₀，力矩不变记为动作M₁，力矩减小M_t升记为动作M₂。离散化处理后的动作集如表2所示，共包括9个动作，a₁～a₉。例如保持浮力不变(动作F₁)且力矩减小M_t升(动作M₂)的动作记作a₈。需要说明的是，这里所说的浮力增大F_t升和力矩增大M_t升等为简化说法，因为实际产生的附加浮力和力矩与油的密度、海水的密度和储油器的相对位置关系均相关，但具体数值跟方法研究无关，因此采取了这种简化说法。

表3.由状态集和动作集确定的Q表

基于前述状态集和动作集定义的Q表如表3所示，其中行表示状态，列表示每个状态下可以执行的各个调节动作，表中各单元格中期望收益值Q(i,j)中的i表示状态的编号，j表示行动的编号，例如Q(1,1)表示在状态s₁下执行行动a₁的期望收益值。学习开始时将Q表各项赋一个较小的随机数作为初值，随着学习的深入进行，各状态下最优动作对应的Q值会不断增加，这样该动作被选取的概率也会相应增加。

动作选择遵从epsilon贪婪策略，即每次以ε的概率选取随机动作，以1-ε概率选取最优动作。ε值开始时设定为0.1，之后随着智能体对Q值较有把握后逐渐减小。

上述动作选择策略如下式所示，先生成一个随机数rand，若其值大于ε则根据现有Q表信息选择当前状态下的最优动作，若其值小于ε则从当前状态下动作集中随机选取1个动作，以进行探索。

其中A_S为遵从epsilon贪婪策略选择的动作，A_R为从动作集中随机选取的动作，A_Q为利用当前Q表信息选取的最优动作，rand为生成的随机数。

当按照epsilon贪婪策略选取一个浮力调节动作并执行后，由于AUV的正浮力和(或)静力矩发生了变化(除执行了浮力和力矩均不变化的行动a₅外)，因此其将重新进入新的航行稳态。由于重新进入航行稳态需要一定的时间且不固定，可采取监视纵倾角和舵角的变化量是否持续小于一定门限的方法来感知新航行稳态的建立。基于此方法，确定的奖励机制如下：(1)等待航行稳态的建立，记录航行稳态下的纵倾角和舵角；(2)判断航行稳态下系统是否处于状态s₅，如果不处于状态s₅，则执行根据前述epsilon贪婪策略选取的调节动作，转步骤3；否则什么也不做；(3)重新等待航行稳态的建立，根据新航行稳态和前一航行稳态下纵倾角和舵角的变化情况计算奖励值，利用产生的奖励并根据Bellman公式对Q表进行更新。

奖励函数如下式所示：

其中R为当前奖励值，P_i和R_i为当前稳态下的纵倾角和舵角，P_i-1和R_i-1为上一稳态下的纵倾角和舵角。也即当纵倾角和舵角绝对值均变小时，则说明调节有效，给予正奖励(+100)；当纵倾角和舵角绝对值均变大时，说明调节起到了反作用，给予负奖励(-100)；其它情况均给予零奖励(0)。

Claims

1.一种基于Q学习的AUV浮力调节方法，其特征在于，包括以下步骤：

根据更新后的Q表选择浮力调节动作，调节AUV浮力；

其中，NewQ(s_i,a_j)为更新后的Q值；Q(s_i,a_j)为更新前的Q值；maxQ(s_i+1,a)表示采取动作a_j后到达的新的状态s_i+1下可能采取的各动作对应的Q值中的最大值，其中，a表示采取动作a_j后到达的新的状态s_i+1下可能采取的动作，A表示动作集，a∈A；α为学习率，R(s_i,a_j)为在状态s_i执行调节动作a_j转移至状态s_i+1所产生的瞬时奖励；γ为折扣率；

所述奖励值通过奖励函数获取，如下式所示：

当纵倾角和执行机构操控量绝对值均变小时，则说明调节有效，给予正奖励，即+rValue；当纵倾角和执行机构操控量绝对值均变大时，说明调节起到了反作用，给予负奖励，即-rValue；其它情况均给予零奖励(0)。

2.根据权利要求1所述的基于Q学习的AUV浮力调节方法，其特征在于：所述系统环境状态集为：AUV纵倾角状态与执行机构操控量状态不同组合所对应的状态；其中，AUV纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。

3.根据权利要求2所述的基于Q学习的AUV浮力调节方法，其特征在于：所述纵倾角和执行机构操控量进行离散化处理，具体是根据各自的门限值将值域空间划分为3部分：小于门限值相反数部分、处于门限值区间内部分、大于门限值部分；使AUV稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。

4.根据权利要求1所述的基于Q学习的AUV浮力调节方法，其特征在于：所述浮力调节动作集包括：浮力调节和力矩调节的多种组合对应的调节动作，浮力调节和力矩调节的每次调节量限定为设定值。

5.根据权利要求1所述的基于Q学习的AUV浮力调节方法，其特征在于：所述Q表包括：基于系统环境状态集和浮力调节动作集的Q表中，行表示状态，列表示每个状态下可以执行的各个调节动作；各单元格中期望收益值Q(i,j)中的i表示状态的编号，j表示调节动作的编号。

6.根据权利要求1所述的基于Q学习的AUV浮力调节方法，其特征在于：所述根据更新后的Q表选择浮力调节动作具体为：