CN114839884B - 一种基于深度强化学习的水下航行器底层控制方法及系统 - Google Patents

一种基于深度强化学习的水下航行器底层控制方法及系统 Download PDF

Info

Publication number
CN114839884B
CN114839884B CN202210780992.9A CN202210780992A CN114839884B CN 114839884 B CN114839884 B CN 114839884B CN 202210780992 A CN202210780992 A CN 202210780992A CN 114839884 B CN114839884 B CN 114839884B
Authority
CN
China
Prior art keywords
underwater vehicle
bottom layer
strategy
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210780992.9A
Other languages
English (en)
Other versions
CN114839884A (zh
Inventor
李沂滨
张悦
高辉
张天泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210780992.9A priority Critical patent/CN114839884B/zh
Publication of CN114839884A publication Critical patent/CN114839884A/zh
Application granted granted Critical
Publication of CN114839884B publication Critical patent/CN114839884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出了一种基于深度强化学习的水下航行器底层控制方法及系统,包括:根据水下航行器的状态信息、动作信息确定水下航行器控制系统的输入、输出以及系统控制目标;将系统控制目标转换为基于策略‑评价网络的深度强化学习下的水下航行器底层控制目标;根据水下航行器的状态信息得到新的动作信息以及动作所对应的奖励值并存入经验回收池,通过经验回收池对策略‑评价网络进行迭代训练;将迭代训练后的策略‑评价网络作为控制网络实现对水下航行器底层的控制。通过采用策略‑评价网络结构,将采集到原始传感器信息进行处理,输出推进器与舵角指令,实现高精度与自适应的水下航行器底层控制。

Description

一种基于深度强化学习的水下航行器底层控制方法及系统
技术领域
本发明属于深度强化学习以及智能控制相关技术领域,尤其涉及一种基于深度强化学习的水下航行器底层控制方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在海洋开发日益重要的现在,水下航行器越来越得到各个国家的重视,无论是在民用还是在军用上,都扮演着重要的角色。但由于水下航行器具有强耦合性、高度非线性等特点,在水下环境运行时又容易受到洋流等因素干扰,导致水下航行器的控制难度增大。
水下航行器底层控制包括对推进器控制、传感器信号处理等。经典控制技术虽然在底层控制上取得重大成就,但水下航行器复杂的操作条件和面临的恶劣水下环境对底层控制要求更高。深度强化学习具有强大的感知能力与决策能力,能自主适应恶劣的水下环境与水下航行器复杂的操作条件,能很好地实现对水下航行器的底层控制。
近年来,深度强化学习在水下航行器的应用上表现出优异性能,尤其是策略-评价网络架构成为当今流行算法的基础。如今近端策略优化(PPO)算法以其优异的性能以及易于实现与调试的特点被广泛应用并取得不错的效果。但由于近端策略优化(PPO)自身限制学习率的特点,可能会导致学习效率低的问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于深度强化学习的水下航行器底层控制方法及系统,基于改进型近端策略优化算法,采用一种策略-评价网络结构,将采集到原始传感器信息进行处理,输出推进器与舵角指令,实现高精度与自适应的水下航行器底层控制。
本发明的第一个方面提供一种基于深度强化学习的水下航行器底层控制方法,包括:根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制。
进一步的,定义水下航行器底层控制系统的输入、输出、位置误差,所述输入包括传感器所测量的水下航行器的当前位置向量、当前的速度向量以及当前的加速度向量;所述输出包括推进器推力、水平舵舵角和垂直舵舵角;所述位置误差为传感器所测量的水下航行器当前的位置信息与路径规划所给出的参考位置信息之差。
进一步的,建立水下航行器的底层控制的马尔科夫决策模型,包括定义状态向量、定义动作向量、定义奖励函数;
所述定义状态向量包括水下航行器的当前位置向量、当前速度向量、当前加速度向量、参考位置信息以及上一时间步水下航行器底层控制系统的输出;
所述定义动作向量为定义第t个时间步的动作向量为第t个时间步的水下航行器底层控制系统的输出;
所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定。
进一步的,所述基于策略-评价网络的深度强化学习下的水下航行器底层控制目标中策略网络的损失函数为:
Figure 267680DEST_PATH_IMAGE001
Figure 612073DEST_PATH_IMAGE002
其中,
Figure 546269DEST_PATH_IMAGE003
为裁剪因子,
Figure 52337DEST_PATH_IMAGE004
为优势函数,
Figure 206237DEST_PATH_IMAGE005
代表原始策略网络权重
Figure 88743DEST_PATH_IMAGE006
下的优势函数,策略
Figure 378910DEST_PATH_IMAGE007
为在状态
Figure 55879DEST_PATH_IMAGE008
下选择动作
Figure 431496DEST_PATH_IMAGE009
的概率,
Figure 117693DEST_PATH_IMAGE010
则代表原策略在状态
Figure 763831DEST_PATH_IMAGE011
下选择动作
Figure 877281DEST_PATH_IMAGE009
的概率,
Figure 740194DEST_PATH_IMAGE012
为状态向量,
Figure 964502DEST_PATH_IMAGE013
为系统输出。
进一步的,对于基于策略-评价网络的深度强化学习下的水下航行器底层控制目标的评价网络的损失函数为:
Figure 229262DEST_PATH_IMAGE014
其中,
Figure 513612DEST_PATH_IMAGE015
为评价网络权重,
Figure 598243DEST_PATH_IMAGE016
为评价网络的输出值,
Figure 626242DEST_PATH_IMAGE017
为第t个时间步计算得到的价值函数值。
进一步的,所述策略-评价网络包括策略网络和评价网络,所述策略网络设置为两个,所述评价网络设置为一个;所述策略网络的输入为水下航行器的状态向量,输出为水下航行器当前状态下的动作;所述评价网络的输入为水下航行器的状态向量和动作向量,输出为当前状态下的动作对应的价值。
进一步的,训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t = 0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作
Figure 244043DEST_PATH_IMAGE018
Figure 636978DEST_PATH_IMAGE019
,根据
Figure 536801DEST_PATH_IMAGE020
Figure 40595DEST_PATH_IMAGE019
以及所定义的奖励函数分别得到奖励值
Figure 76684DEST_PATH_IMAGE021
Figure 640520DEST_PATH_IMAGE022
并观测到新的状态向量
Figure 762060DEST_PATH_IMAGE023
Figure 571009DEST_PATH_IMAGE024
,保留奖励值高的动作存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次迭代结束。
进一步的,所述策略网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
进一步的,所述评价网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用线性函数。
本发明第二个方面提出一种基于深度强化学习的水下航行器底层控制系统,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
以上一个或多个技术方案存在以下有益效果:
1、本发明针对的是水下航行器的底层控制,利用深度学习强大的感知能力处理水下航行器传感器信息,利用强化学习的决策能力输出推进器与舵角指令,与传统的底层控制方法相比自适应能力更强。因为是底层控制,与现有的深度强化学习控制水下航行器的方法相比更精确。
2、本发明的控制方法是无模型的,故不需要复杂的建模,而且可以很好地适用于强耦合性与强非线性特点的水下航行器。
3、本发明针对近端策略优化算法容易导致训练速度慢的特点进行优化,设置两个策略网络,选择奖励值高的动作存储在经验集中进行训练,在更新网络参数时对两个策略网络随机更新。
4、本发明对水下航行器的横倾角在奖励函数中进行控制设计,横倾角越小,奖励函数中这一项的奖励值越大。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明水下航行器控制方法的框架图;
图2为本发明中策略网络结构示意图;
图3是本发明中评价网络结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
实施例一
如图1所示,本实施例公开了一种基于深度强化学习的水下航行器底层控制方法,
步骤1:根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
步骤2:基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
步骤3:根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
步骤4:将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制。
在本实施例中,在所述步骤1之前,还包括定义水下航行器底层控制问题,包括四个部分:确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器底层控制目标。
步骤0-1:确定水下航行器系统输入
系统输入包括传感器信息
Figure 727184DEST_PATH_IMAGE025
、由指导模块如路径规划模块给出的参考位置信息
Figure 461922DEST_PATH_IMAGE026
、上一时间的系统输出
Figure 70758DEST_PATH_IMAGE027
。其中,
Figure 916354DEST_PATH_IMAGE028
为当前位置向量,
Figure 927036DEST_PATH_IMAGE029
为当前的速度向量(包括线速度与角速度),
Figure 832675DEST_PATH_IMAGE030
为当前的加速度向量(包括线加速度与角加速度)。
步骤0-2:确定水下航行器系统输出
系统输出为
Figure 928807DEST_PATH_IMAGE031
,其中
Figure 76629DEST_PATH_IMAGE032
为推进器推力、
Figure 207396DEST_PATH_IMAGE033
为水平舵舵角、
Figure 283936DEST_PATH_IMAGE034
为垂直舵舵角。推力饱和值为86N,舵角饱和值为
Figure 601785DEST_PATH_IMAGE035
步骤0-3:计算位置误差
位置误差
Figure 54763DEST_PATH_IMAGE036
为传感器测量的位置信息
Figure 40037DEST_PATH_IMAGE037
与参考位置信息
Figure 287479DEST_PATH_IMAGE038
的差值,公式为:
Figure 92624DEST_PATH_IMAGE039
(1)
步骤0-4:建立水下航行器底层控制目标
目标函数
Figure 573459DEST_PATH_IMAGE040
为:
Figure 413239DEST_PATH_IMAGE041
(2)
其中,
Figure 831582DEST_PATH_IMAGE042
为折扣因子,
Figure 327286DEST_PATH_IMAGE043
为奖励函数,
Figure 918804DEST_PATH_IMAGE044
为系统输出,
Figure 816353DEST_PATH_IMAGE045
Figure 467914DEST_PATH_IMAGE046
相关的函数,t表示第t个时间步,水下航行器底层控制的目标是求解出最优的系统输出
Figure 683870DEST_PATH_IMAGE047
,使目标函数
Figure 79079DEST_PATH_IMAGE048
最大化,即
Figure 831134DEST_PATH_IMAGE049
在所述步骤1和步骤2中:建立水下航行器底层控制问题的马尔科夫决策模型,包括定义状态向量、定义动作向量、定义奖励函数以及将步骤0-4所建立的水下航行器底层控制目标转换为基于策略-评价网络下深度强化学习的控制目标。
步骤1-1:定义状态向量
状态向量为
Figure 653597DEST_PATH_IMAGE050
其中,
Figure 858313DEST_PATH_IMAGE051
为当前位置向量,
Figure 57213DEST_PATH_IMAGE052
为当前的速度向量,
Figure 663775DEST_PATH_IMAGE053
为当前的加速度向量,
Figure 657139DEST_PATH_IMAGE054
为参考位置信息,
Figure 850616DEST_PATH_IMAGE055
为上一时间步的系统输出。
步骤1-2:定义动作向量
定义第t个时间步的系统输出
Figure 853207DEST_PATH_IMAGE056
步骤1-3:定义奖励函数
定义第t个时间步的奖励函数为r,奖励函数代表在状态
Figure 314276DEST_PATH_IMAGE057
时采取动作
Figure 478541DEST_PATH_IMAGE058
所获得的奖励。根据水下航行器当前位置误差、与下一时间步的期望位置误差、输出动作、期望航向角、横倾角与横倾角速度设置奖励函数如下:
Figure 657849DEST_PATH_IMAGE059
(3)
其中,
Figure 198552DEST_PATH_IMAGE060
分别为各项的加权系数,
Figure 514127DEST_PATH_IMAGE061
为横倾角,
Figure 551091DEST_PATH_IMAGE062
为横倾角速度,
Figure 14433DEST_PATH_IMAGE063
Figure 296510DEST_PATH_IMAGE064
分别为
Figure 528908DEST_PATH_IMAGE065
Figure 238238DEST_PATH_IMAGE066
的转置。
在本实施例中,
Figure 188877DEST_PATH_IMAGE067
步骤1-4:将步骤0-4所建立的水下航行器底层控制目标转换为基于策略-评价网络的深度强化学习下的控制目标。
水下航行器的底层控制目标为
Figure 9065DEST_PATH_IMAGE068
最大化,其中:
Figure 361549DEST_PATH_IMAGE069
定义策略
Figure 743245DEST_PATH_IMAGE070
为在状态
Figure 181180DEST_PATH_IMAGE071
下选择动作
Figure 805059DEST_PATH_IMAGE072
的概率,
Figure 12050DEST_PATH_IMAGE073
则代表原策略在状态
Figure 63182DEST_PATH_IMAGE074
下选择动作
Figure 988413DEST_PATH_IMAGE075
的概率。深度强化学习下的控制目标则为选择最优策略
Figure 150404DEST_PATH_IMAGE076
,使得策略网络输出的动作
Figure 477480DEST_PATH_IMAGE077
使
Figure 932470DEST_PATH_IMAGE078
最大化,对于策略网络来说,损失函数
Figure 344997DEST_PATH_IMAGE079
为:
Figure 310679DEST_PATH_IMAGE001
Figure 429944DEST_PATH_IMAGE080
(4)
其中,
Figure 885197DEST_PATH_IMAGE081
为裁剪因子,
Figure 457123DEST_PATH_IMAGE082
为优势函数,
Figure 23234DEST_PATH_IMAGE083
代表原始策略网络权重
Figure 764050DEST_PATH_IMAGE084
下的优势函数,策略
Figure 390204DEST_PATH_IMAGE085
为在状态
Figure 449426DEST_PATH_IMAGE086
下选择动作
Figure 819228DEST_PATH_IMAGE087
的概率,
Figure 913086DEST_PATH_IMAGE088
则代表原策略在状态
Figure 710141DEST_PATH_IMAGE089
下选择动作
Figure 256660DEST_PATH_IMAGE090
的概率。
状态为
Figure 164573DEST_PATH_IMAGE091
动作
Figure 579428DEST_PATH_IMAGE094
时的优势函数为:
Figure 613243DEST_PATH_IMAGE095
(5)
其中,
Figure 324847DEST_PATH_IMAGE096
为策略网络权重,
Figure 127718DEST_PATH_IMAGE097
代表策略网络权重
Figure 204259DEST_PATH_IMAGE096
下的优势函数,
Figure 787687DEST_PATH_IMAGE098
为样本估计的动作-价值函数,
Figure 753849DEST_PATH_IMAGE099
为状态-价值函数的近似值。
Figure 473543DEST_PATH_IMAGE100
(6)
Figure 720985DEST_PATH_IMAGE101
(7)
其中,
Figure 791709DEST_PATH_IMAGE102
代表策略网络期望,则
Figure 782799DEST_PATH_IMAGE103
为状态
Figure 622579DEST_PATH_IMAGE104
动作
Figure 40922DEST_PATH_IMAGE105
条件下的折扣奖励的期望,
Figure 598942DEST_PATH_IMAGE106
为状态
Figure 626678DEST_PATH_IMAGE107
条件下的折扣奖励的期望,
Figure 320965DEST_PATH_IMAGE108
为公式(2)中的目标函数,也是折扣奖励,
Figure 175789DEST_PATH_IMAGE109
为折扣因子。
对于深度强化学习框架中基于策略-评价网络的评价网络来说,损失函数
Figure 955526DEST_PATH_IMAGE110
为:
Figure 288418DEST_PATH_IMAGE111
(8)
Figure 102790DEST_PATH_IMAGE112
(9)
Figure 862936DEST_PATH_IMAGE113
(10)
其中,
Figure 129969DEST_PATH_IMAGE114
为评价网络权重,
Figure 768017DEST_PATH_IMAGE115
为调整因子,
Figure 374579DEST_PATH_IMAGE116
为时序差分误差,
Figure 367943DEST_PATH_IMAGE117
为评价网络的输出值,
Figure 59955DEST_PATH_IMAGE118
为状态
Figure 796967DEST_PATH_IMAGE119
条件下的折扣奖励的期望,
Figure 258036DEST_PATH_IMAGE120
为第i时间步的即时奖励,
Figure 124098DEST_PATH_IMAGE121
为第t个时间步计算得到的价值函数值。
在所述步骤3中,基于策略-评价的深度强化学习算法是通过构建策略网络和评价网络来选择最优策略。
步骤3-1:策略网络的构建
如图2所示,策略网络是包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络。输入层的输入为观察量,神经元个数为观察量的维度;隐藏层神经元个数为512;输出层的输出为动作,神经元个数为动作的维度。隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
通过构建策略网络来输出当前状态下的动作,为了使策略更加稳定,采用clip函数,限制新策略的变化幅度。此外,为了探索更加充分,采用两个策略网络产生动作,并保存奖励值高的动作。
步骤3-2:评价网络的构建
如图3所示,评价网络是包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络。输入层的输入为观察量,神经元个数为观察量的维度;隐藏层神经元个数为512,动作值作为第一个隐藏层的输入;输出层的输出当前时间步下动作的价值为
Figure 365724DEST_PATH_IMAGE117
,神经元个数为
Figure 578530DEST_PATH_IMAGE122
的维度。隐藏层激活函数采用ReLu函数,输出层采用线性函数。
通过构建评价网络来输出当前动作对应的价值
Figure 222001DEST_PATH_IMAGE122
步骤3-3:确定目标策略
根据所构建的策略-评价网络,将时间步t学习到的动作作为系统输出。
求解水下航行器的目标策略,即选择最优策略
Figure 494851DEST_PATH_IMAGE123
,使得策略网络输出的动作
Figure 223772DEST_PATH_IMAGE124
使
Figure 240270DEST_PATH_IMAGE125
最大化,具体步骤包括:
步骤4-1:参数设置
策略网络学习率为
Figure 738247DEST_PATH_IMAGE126
,评价网络学习率为
Figure 949042DEST_PATH_IMAGE127
,裁剪因子为
Figure 899681DEST_PATH_IMAGE128
,折扣因子为
Figure 719869DEST_PATH_IMAGE129
,调整因子为
Figure 72353DEST_PATH_IMAGE130
。最大迭代次数为
Figure 952584DEST_PATH_IMAGE131
,每次迭代最大次数为U=10,经验集
Figure 390519DEST_PATH_IMAGE132
大小为D=1024,经验回放抽取的训练集大小为B=128。
步骤4-2:初始化策略-评价网络参数
随机初始化策略-评价网络参数
Figure 748819DEST_PATH_IMAGE133
,构建经验集
Figure 221389DEST_PATH_IMAGE134
,并初始化为空。
步骤4-3:迭代开始,对策略-评价网络进行训练,初始化迭代次数episode = 1。
步骤4-4:设置当前时间步t=0,随机初始化水下航行器的状态变量
Figure 771057DEST_PATH_IMAGE135
,令当前时间步的状态变量
Figure 696287DEST_PATH_IMAGE136
步骤4-5:根据两个策略网络得到当前时间步的输出动作
Figure 858278DEST_PATH_IMAGE137
Figure 857458DEST_PATH_IMAGE138
步骤4-6:水下航行器在当前状态
Figure 141809DEST_PATH_IMAGE139
下执行动作
Figure 492019DEST_PATH_IMAGE140
Figure 520018DEST_PATH_IMAGE138
,根据步骤2-3中的奖励函数计算公式分别得到即时奖励
Figure 140748DEST_PATH_IMAGE021
Figure 330421DEST_PATH_IMAGE022
,并观测到新的状态向量
Figure 167927DEST_PATH_IMAGE023
Figure 734038DEST_PATH_IMAGE024
比较
Figure 973389DEST_PATH_IMAGE141
Figure 333964DEST_PATH_IMAGE142
,若
Figure 658766DEST_PATH_IMAGE143
,令
Figure 28567DEST_PATH_IMAGE144
;若
Figure 355381DEST_PATH_IMAGE145
,令
Figure 152436DEST_PATH_IMAGE146
,将收集的经验样本存入经验集
Figure 698955DEST_PATH_IMAGE147
中,
Figure 872447DEST_PATH_IMAGE148
如果经验集
Figure 820811DEST_PATH_IMAGE149
的样本数量已经达到最大容量
Figure 788767DEST_PATH_IMAGE134
,则先删除最先加入的一个样本,再将新的经验样本存入经验集
Figure 822583DEST_PATH_IMAGE134
中;否则直接将经验样本存入经验集
Figure 534187DEST_PATH_IMAGE134
中。
步骤4-7:从经验集
Figure 826804DEST_PATH_IMAGE149
中随机选取B个经验样本,根据公式(10)计算时序差分误差
Figure 965661DEST_PATH_IMAGE150
Figure 486772DEST_PATH_IMAGE151
步骤4-8:根据步骤4-7中计算得到的时序差分误差
Figure 736488DEST_PATH_IMAGE152
计算:
Figure 659445DEST_PATH_IMAGE153
Figure 969203DEST_PATH_IMAGE154
步骤4-9:直接复制更新策略网络参数
Figure 977610DEST_PATH_IMAGE155
,此时更新后的策略网络参数为步骤4-10计算
Figure 467235DEST_PATH_IMAGE156
时的
Figure 307015DEST_PATH_IMAGE157
步骤4-10:从经验集
Figure 725358DEST_PATH_IMAGE158
中随机采样B条数据,计算
Figure 17799DEST_PATH_IMAGE159
,用
Figure 874897DEST_PATH_IMAGE160
随机更新两个策略网络参数
Figure 506867DEST_PATH_IMAGE161
计算
Figure 96111DEST_PATH_IMAGE162
,用
Figure 141427DEST_PATH_IMAGE163
的梯度值
Figure 975785DEST_PATH_IMAGE164
更新评价网络参数
Figure 524578DEST_PATH_IMAGE165
Figure 550302DEST_PATH_IMAGE166
,若次数的迭代次数小于U,则重复本步骤;否则,进行下一步。
步骤4-11:若此时到达最大迭代次数M,则得到训练完成的策略网络参数
Figure 817336DEST_PATH_IMAGE167
,跳转至步骤4-12。否则直接复制更新策略网络参数
Figure 953919DEST_PATH_IMAGE168
,清空经验集
Figure 357218DEST_PATH_IMAGE134
,令episode=episode+1并跳转至步骤4-4。
步骤4-12:迭代结束,将学习到的策略-评价网络作为控制网络,实现对水下航行器的底层控制。
实施例二
本实施例的目的是提供一种基于深度强化学习的水下航行器底层控制系统,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种基于深度强化学习的水下航行器底层控制方法,其特征是,包括:
根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;其中,建立水下航行器底层控制的马尔科夫决策模型包括定义奖励函数,所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定;奖励函数为:
Figure FDA0003809371560000011
其中,ci(i=1,2,3,4)分别为各项的加权系数,φ为横倾角,p为横倾角速度,st为状态向量,at为动作向量,et为当前位置误差,
Figure FDA0003809371560000012
Figure FDA0003809371560000013
分别为at与et的转置,ft为推进器推力,
Figure FDA0003809371560000014
为水平舵舵角、
Figure FDA0003809371560000015
为垂直舵舵角;
基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制;
训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t=0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作at1与at2,根据at1与at2以及所定义的奖励函数分别得到奖励值rt1与rt2并观测到新的状态向量st1+1与st2+1,保留奖励值高的动作,将其对应的奖励值和新的状态向量存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次数迭代结束。
2.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,定义水下航行器底层控制系统的输入、输出、位置误差,所述输入包括传感器所测量的水下航行器的当前位置向量、当前的速度向量以及当前的加速度向量;所述输出包括推进器推力、水平舵舵角和垂直舵舵角;所述位置误差为传感器所测量的水下航行器当前的位置信息与路径规划所给出的参考位置信息之差。
3.如权利要求2所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,建立水下航行器的底层控制的马尔科夫决策模型,还包括定义状态向量、定义动作向量;
所述定义状态向量包括水下航行器的当前位置向量、当前速度向量、当前加速度向量、参考位置信息以及上一时间步水下航行器底层控制系统的输出;
所述定义动作向量为定义第t个时间步的动作向量为第t个时间步的水下航行器底层控制系统的输出。
4.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述基于策略-评价网络的深度强化学习下的水下航行器底层控制目标中策略网络的损失函数为:
Figure FDA0003809371560000031
Figure FDA0003809371560000032
其中,ε为裁剪因子,A为优势函数,Aθ old代表原始策略网络权重θold下的优势函数,策略πθ(at|st)为在状态st下选择动作at的概率,
Figure FDA0003809371560000041
则代表原策略在状态st下选择动作at的概率,st为状态向量,at为系统输出。
5.如权利要求4所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,对于基于策略-评价网络的深度强化学习下的水下航行器底层控制目标的评价网络的损失函数为:
Figure FDA0003809371560000042
其中,ω为评价网络权重,Vω(s,a)为评价网络的输出值,
Figure FDA0003809371560000043
为第t个时间步计算得到的价值函数值。
6.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述策略-评价网络包括策略网络和评价网络,所述策略网络设置为两个,所述评价网络设置为一个;所述策略网络的输入为水下航行器的状态向量,输出为水下航行器当前状态下的动作;所述评价网络的输入为水下航行器的状态向量和动作向量,输出为当前状态下的动作对应的价值。
7.如权利要求6所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述策略网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
8.如权利要求6所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述评价网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用线性函数。
9.一种基于深度强化学习的水下航行器底层控制系统,其特征是,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;其中,建立水下航行器底层控制的马尔科夫决策模型包括定义奖励函数,所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定;奖励函数为:
Figure FDA0003809371560000051
其中,ci(i=1,2,3,4)分别为各项的加权系数,φ为横倾角,p为横倾角速度,st为状态向量,at为动作向量,et为当前位置误差,
Figure FDA0003809371560000061
Figure FDA0003809371560000062
分别为at与et的转置,ft为推进器推力,
Figure FDA0003809371560000063
为水平舵舵角、
Figure FDA0003809371560000064
为垂直舵舵角;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t=0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作at1与at2,根据at1与at2以及所定义的奖励函数分别得到奖励值rt1与rt2并观测到新的状态向量st1+1与st2+1,保留奖励值高的动作,将其对应的奖励值和新的状态向量存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次数迭代结束;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
CN202210780992.9A 2022-07-05 2022-07-05 一种基于深度强化学习的水下航行器底层控制方法及系统 Active CN114839884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210780992.9A CN114839884B (zh) 2022-07-05 2022-07-05 一种基于深度强化学习的水下航行器底层控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210780992.9A CN114839884B (zh) 2022-07-05 2022-07-05 一种基于深度强化学习的水下航行器底层控制方法及系统

Publications (2)

Publication Number Publication Date
CN114839884A CN114839884A (zh) 2022-08-02
CN114839884B true CN114839884B (zh) 2022-09-30

Family

ID=82574979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210780992.9A Active CN114839884B (zh) 2022-07-05 2022-07-05 一种基于深度强化学习的水下航行器底层控制方法及系统

Country Status (1)

Country Link
CN (1) CN114839884B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116295449B (zh) * 2023-05-25 2023-09-12 吉林大学 水下自主航行器路径指示方法及装置
CN117376661B (zh) * 2023-12-06 2024-02-27 山东大学 一种基于神经网络的细粒度视频流自适应调节系统及方法
CN117606490B (zh) * 2024-01-23 2024-05-14 吉林大学 一种水下自主航行器协同搜索路径规划方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109947131A (zh) * 2019-04-08 2019-06-28 燕山大学 一种基于强化学习的多水下机器人编队控制方法
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110597058A (zh) * 2019-08-28 2019-12-20 浙江工业大学 一种基于增强学习的三自由度自主水下航行器控制方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CA3067575A1 (en) * 2019-01-14 2020-07-14 Harbin Engineering University Self-learning autonomous navigation systems and methods for unmanned underwater vehicle
CN112540614A (zh) * 2020-11-26 2021-03-23 江苏科技大学 一种基于深度强化学习的无人艇航迹控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CA3067575A1 (en) * 2019-01-14 2020-07-14 Harbin Engineering University Self-learning autonomous navigation systems and methods for unmanned underwater vehicle
CN109947131A (zh) * 2019-04-08 2019-06-28 燕山大学 一种基于强化学习的多水下机器人编队控制方法
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN110597058A (zh) * 2019-08-28 2019-12-20 浙江工业大学 一种基于增强学习的三自由度自主水下航行器控制方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN112540614A (zh) * 2020-11-26 2021-03-23 江苏科技大学 一种基于深度强化学习的无人艇航迹控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统

Also Published As

Publication number Publication date
CN114839884A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN112132263B (zh) 一种基于强化学习的多智能体自主导航方法
WO2020024172A1 (zh) 多状态连续动作空间的合作式方法及系统
CN108803321A (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN114967713B (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN111768028B (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN116448117A (zh) 一种融合深度神经网络和强化学习方法的路径规划方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN114690623B (zh) 一种值函数快速收敛的智能体高效全局探索方法及系统
CN116149166A (zh) 一种基于改进白鲸算法的无人救援艇航向控制方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN113821025A (zh) 一种神经网络优化启发函数的移动机器人路径规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN111105442A (zh) 切换式目标跟踪方法
CN113341696A (zh) 一种运载火箭姿态控制参数智能整定方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
Li et al. Morphing Strategy Design for UAV based on Prioritized Sweeping Reinforcement Learning
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
CN114995106A (zh) 基于改进小波神经网络的pid自整定方法、装置和设备
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant