CN114839884B - 一种基于深度强化学习的水下航行器底层控制方法及系统 - Google Patents
一种基于深度强化学习的水下航行器底层控制方法及系统 Download PDFInfo
- Publication number
- CN114839884B CN114839884B CN202210780992.9A CN202210780992A CN114839884B CN 114839884 B CN114839884 B CN 114839884B CN 202210780992 A CN202210780992 A CN 202210780992A CN 114839884 B CN114839884 B CN 114839884B
- Authority
- CN
- China
- Prior art keywords
- underwater vehicle
- bottom layer
- strategy
- network
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 68
- 230000009471 action Effects 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000011084 recovery Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 51
- 230000001133 acceleration Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提出了一种基于深度强化学习的水下航行器底层控制方法及系统,包括:根据水下航行器的状态信息、动作信息确定水下航行器控制系统的输入、输出以及系统控制目标;将系统控制目标转换为基于策略‑评价网络的深度强化学习下的水下航行器底层控制目标;根据水下航行器的状态信息得到新的动作信息以及动作所对应的奖励值并存入经验回收池,通过经验回收池对策略‑评价网络进行迭代训练;将迭代训练后的策略‑评价网络作为控制网络实现对水下航行器底层的控制。通过采用策略‑评价网络结构,将采集到原始传感器信息进行处理,输出推进器与舵角指令,实现高精度与自适应的水下航行器底层控制。
Description
技术领域
本发明属于深度强化学习以及智能控制相关技术领域,尤其涉及一种基于深度强化学习的水下航行器底层控制方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在海洋开发日益重要的现在,水下航行器越来越得到各个国家的重视,无论是在民用还是在军用上,都扮演着重要的角色。但由于水下航行器具有强耦合性、高度非线性等特点,在水下环境运行时又容易受到洋流等因素干扰,导致水下航行器的控制难度增大。
水下航行器底层控制包括对推进器控制、传感器信号处理等。经典控制技术虽然在底层控制上取得重大成就,但水下航行器复杂的操作条件和面临的恶劣水下环境对底层控制要求更高。深度强化学习具有强大的感知能力与决策能力,能自主适应恶劣的水下环境与水下航行器复杂的操作条件,能很好地实现对水下航行器的底层控制。
近年来,深度强化学习在水下航行器的应用上表现出优异性能,尤其是策略-评价网络架构成为当今流行算法的基础。如今近端策略优化(PPO)算法以其优异的性能以及易于实现与调试的特点被广泛应用并取得不错的效果。但由于近端策略优化(PPO)自身限制学习率的特点,可能会导致学习效率低的问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于深度强化学习的水下航行器底层控制方法及系统,基于改进型近端策略优化算法,采用一种策略-评价网络结构,将采集到原始传感器信息进行处理,输出推进器与舵角指令,实现高精度与自适应的水下航行器底层控制。
本发明的第一个方面提供一种基于深度强化学习的水下航行器底层控制方法,包括:根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制。
进一步的,定义水下航行器底层控制系统的输入、输出、位置误差,所述输入包括传感器所测量的水下航行器的当前位置向量、当前的速度向量以及当前的加速度向量;所述输出包括推进器推力、水平舵舵角和垂直舵舵角;所述位置误差为传感器所测量的水下航行器当前的位置信息与路径规划所给出的参考位置信息之差。
进一步的,建立水下航行器的底层控制的马尔科夫决策模型,包括定义状态向量、定义动作向量、定义奖励函数;
所述定义状态向量包括水下航行器的当前位置向量、当前速度向量、当前加速度向量、参考位置信息以及上一时间步水下航行器底层控制系统的输出;
所述定义动作向量为定义第t个时间步的动作向量为第t个时间步的水下航行器底层控制系统的输出;
所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定。
进一步的,所述基于策略-评价网络的深度强化学习下的水下航行器底层控制目标中策略网络的损失函数为:
进一步的,对于基于策略-评价网络的深度强化学习下的水下航行器底层控制目标的评价网络的损失函数为:
进一步的,所述策略-评价网络包括策略网络和评价网络,所述策略网络设置为两个,所述评价网络设置为一个;所述策略网络的输入为水下航行器的状态向量,输出为水下航行器当前状态下的动作;所述评价网络的输入为水下航行器的状态向量和动作向量,输出为当前状态下的动作对应的价值。
进一步的,训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t = 0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作与,根据与以及所定义的奖励函数分别得到奖励值与并观测到新的状态向量与,保留奖励值高的动作存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次迭代结束。
进一步的,所述策略网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
进一步的,所述评价网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用线性函数。
本发明第二个方面提出一种基于深度强化学习的水下航行器底层控制系统,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
以上一个或多个技术方案存在以下有益效果:
1、本发明针对的是水下航行器的底层控制,利用深度学习强大的感知能力处理水下航行器传感器信息,利用强化学习的决策能力输出推进器与舵角指令,与传统的底层控制方法相比自适应能力更强。因为是底层控制,与现有的深度强化学习控制水下航行器的方法相比更精确。
2、本发明的控制方法是无模型的,故不需要复杂的建模,而且可以很好地适用于强耦合性与强非线性特点的水下航行器。
3、本发明针对近端策略优化算法容易导致训练速度慢的特点进行优化,设置两个策略网络,选择奖励值高的动作存储在经验集中进行训练,在更新网络参数时对两个策略网络随机更新。
4、本发明对水下航行器的横倾角在奖励函数中进行控制设计,横倾角越小,奖励函数中这一项的奖励值越大。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明水下航行器控制方法的框架图;
图2为本发明中策略网络结构示意图;
图3是本发明中评价网络结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
实施例一
如图1所示,本实施例公开了一种基于深度强化学习的水下航行器底层控制方法,
步骤1:根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
步骤2:基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
步骤3:根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
步骤4:将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制。
在本实施例中,在所述步骤1之前,还包括定义水下航行器底层控制问题,包括四个部分:确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器底层控制目标。
步骤0-1:确定水下航行器系统输入
步骤0-2:确定水下航行器系统输出
步骤0-3:计算位置误差
步骤0-4:建立水下航行器底层控制目标
在所述步骤1和步骤2中:建立水下航行器底层控制问题的马尔科夫决策模型,包括定义状态向量、定义动作向量、定义奖励函数以及将步骤0-4所建立的水下航行器底层控制目标转换为基于策略-评价网络下深度强化学习的控制目标。
步骤1-1:定义状态向量
步骤1-2:定义动作向量
步骤1-3:定义奖励函数
步骤1-4:将步骤0-4所建立的水下航行器底层控制目标转换为基于策略-评价网络的深度强化学习下的控制目标。
在所述步骤3中,基于策略-评价的深度强化学习算法是通过构建策略网络和评价网络来选择最优策略。
步骤3-1:策略网络的构建
如图2所示,策略网络是包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络。输入层的输入为观察量,神经元个数为观察量的维度;隐藏层神经元个数为512;输出层的输出为动作,神经元个数为动作的维度。隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
通过构建策略网络来输出当前状态下的动作,为了使策略更加稳定,采用clip函数,限制新策略的变化幅度。此外,为了探索更加充分,采用两个策略网络产生动作,并保存奖励值高的动作。
步骤3-2:评价网络的构建
如图3所示,评价网络是包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络。输入层的输入为观察量,神经元个数为观察量的维度;隐藏层神经元个数为512,动作值作为第一个隐藏层的输入;输出层的输出当前时间步下动作的价值为,神经元个数为的维度。隐藏层激活函数采用ReLu函数,输出层采用线性函数。
步骤3-3:确定目标策略
根据所构建的策略-评价网络,将时间步t学习到的动作作为系统输出。
步骤4-1:参数设置
步骤4-2:初始化策略-评价网络参数
步骤4-3:迭代开始,对策略-评价网络进行训练,初始化迭代次数episode = 1。
步骤4-12:迭代结束,将学习到的策略-评价网络作为控制网络,实现对水下航行器的底层控制。
实施例二
本实施例的目的是提供一种基于深度强化学习的水下航行器底层控制系统,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于深度强化学习的水下航行器底层控制方法,其特征是,包括:
根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;其中,建立水下航行器底层控制的马尔科夫决策模型包括定义奖励函数,所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定;奖励函数为:
其中,ci(i=1,2,3,4)分别为各项的加权系数,φ为横倾角,p为横倾角速度,st为状态向量,at为动作向量,et为当前位置误差,与分别为at与et的转置,ft为推进器推力,为水平舵舵角、为垂直舵舵角;
基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;
将迭代训练后的策略-评价网络作为控制网络实现对水下航行器的底层控制;
训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t=0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作at1与at2,根据at1与at2以及所定义的奖励函数分别得到奖励值rt1与rt2并观测到新的状态向量st1+1与st2+1,保留奖励值高的动作,将其对应的奖励值和新的状态向量存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次数迭代结束。
2.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,定义水下航行器底层控制系统的输入、输出、位置误差,所述输入包括传感器所测量的水下航行器的当前位置向量、当前的速度向量以及当前的加速度向量;所述输出包括推进器推力、水平舵舵角和垂直舵舵角;所述位置误差为传感器所测量的水下航行器当前的位置信息与路径规划所给出的参考位置信息之差。
3.如权利要求2所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,建立水下航行器的底层控制的马尔科夫决策模型,还包括定义状态向量、定义动作向量;
所述定义状态向量包括水下航行器的当前位置向量、当前速度向量、当前加速度向量、参考位置信息以及上一时间步水下航行器底层控制系统的输出;
所述定义动作向量为定义第t个时间步的动作向量为第t个时间步的水下航行器底层控制系统的输出。
6.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述策略-评价网络包括策略网络和评价网络,所述策略网络设置为两个,所述评价网络设置为一个;所述策略网络的输入为水下航行器的状态向量,输出为水下航行器当前状态下的动作;所述评价网络的输入为水下航行器的状态向量和动作向量,输出为当前状态下的动作对应的价值。
7.如权利要求6所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述策略网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用tanh函数。
8.如权利要求6所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述评价网络包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,所述隐藏层激活函数采用ReLu函数,输出层采用线性函数。
9.一种基于深度强化学习的水下航行器底层控制系统,其特征是,包括:
建立控制目标模块,其被配置为根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;其中,建立水下航行器底层控制的马尔科夫决策模型包括定义奖励函数,所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定;奖励函数为:
其中,ci(i=1,2,3,4)分别为各项的加权系数,φ为横倾角,p为横倾角速度,st为状态向量,at为动作向量,et为当前位置误差,与分别为at与et的转置,ft为推进器推力,为水平舵舵角、为垂直舵舵角;
控制目标转换模块,其被配置为基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略-评价网络的深度强化学习下的水下航行器底层控制目标;
训练模块,其被配置为根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略-评价网络进行迭代训练;训练所述的策略-评价网络包括:
随机初始化两个策略网络的网络参数以及评价网络的参数;
设置当前的时间步t=0其所对应的状态变量分别作为两个策略网络的输入,分别得到当前时间步的输出动作at1与at2,根据at1与at2以及所定义的奖励函数分别得到奖励值rt1与rt2并观测到新的状态向量st1+1与st2+1,保留奖励值高的动作,将其对应的奖励值和新的状态向量存入经验回收池中;
计算时序差分误差,基于时序差分误差计算评价网络的损失函数,基于评价网络的损失函数的梯度来更新评价网络的网络参数;计算策略网络的损失函数,基于策略网络的损失函数的梯度来更新策略网络的网络参数,不断的迭代训练,直至达到训练次数迭代结束;
控制模块,其被配置为将迭代训练后的策略-评价网络作为控制网络实现对水下航行器底层的控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210780992.9A CN114839884B (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210780992.9A CN114839884B (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114839884A CN114839884A (zh) | 2022-08-02 |
CN114839884B true CN114839884B (zh) | 2022-09-30 |
Family
ID=82574979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210780992.9A Active CN114839884B (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度强化学习的水下航行器底层控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114839884B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116295449B (zh) * | 2023-05-25 | 2023-09-12 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
CN117376661B (zh) * | 2023-12-06 | 2024-02-27 | 山东大学 | 一种基于神经网络的细粒度视频流自适应调节系统及方法 |
CN117606490B (zh) * | 2024-01-23 | 2024-05-14 | 吉林大学 | 一种水下自主航行器协同搜索路径规划方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109947131A (zh) * | 2019-04-08 | 2019-06-28 | 燕山大学 | 一种基于强化学习的多水下机器人编队控制方法 |
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
CN110597058A (zh) * | 2019-08-28 | 2019-12-20 | 浙江工业大学 | 一种基于增强学习的三自由度自主水下航行器控制方法 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CA3067575A1 (en) * | 2019-01-14 | 2020-07-14 | Harbin Engineering University | Self-learning autonomous navigation systems and methods for unmanned underwater vehicle |
CN112540614A (zh) * | 2020-11-26 | 2021-03-23 | 江苏科技大学 | 一种基于深度强化学习的无人艇航迹控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113821045A (zh) * | 2021-08-12 | 2021-12-21 | 浙江大学 | 一种腿足机器人强化学习动作生成系统 |
-
2022
- 2022-07-05 CN CN202210780992.9A patent/CN114839884B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CA3067575A1 (en) * | 2019-01-14 | 2020-07-14 | Harbin Engineering University | Self-learning autonomous navigation systems and methods for unmanned underwater vehicle |
CN109947131A (zh) * | 2019-04-08 | 2019-06-28 | 燕山大学 | 一种基于强化学习的多水下机器人编队控制方法 |
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN110404264A (zh) * | 2019-07-25 | 2019-11-05 | 哈尔滨工业大学(深圳) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 |
CN110597058A (zh) * | 2019-08-28 | 2019-12-20 | 浙江工业大学 | 一种基于增强学习的三自由度自主水下航行器控制方法 |
CN110956148A (zh) * | 2019-12-05 | 2020-04-03 | 上海舵敏智能科技有限公司 | 无人车的自主避障方法及装置、电子设备、可读存储介质 |
CN112540614A (zh) * | 2020-11-26 | 2021-03-23 | 江苏科技大学 | 一种基于深度强化学习的无人艇航迹控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113821045A (zh) * | 2021-08-12 | 2021-12-21 | 浙江大学 | 一种腿足机器人强化学习动作生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114839884A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114839884B (zh) | 一种基于深度强化学习的水下航行器底层控制方法及系统 | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
WO2020024172A1 (zh) | 多状态连续动作空间的合作式方法及系统 | |
CN108803321A (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN113052372B (zh) | 一种基于深度强化学习的动态auv追踪路径规划方法 | |
CN114967713B (zh) | 基于强化学习的水下航行器浮力离散变化下的控制方法 | |
CN111768028B (zh) | 一种基于深度强化学习的gwlf模型参数调节方法 | |
CN116448117A (zh) | 一种融合深度神经网络和强化学习方法的路径规划方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN114690623B (zh) | 一种值函数快速收敛的智能体高效全局探索方法及系统 | |
CN116149166A (zh) | 一种基于改进白鲸算法的无人救援艇航向控制方法 | |
CN113722980A (zh) | 海洋浪高预测方法、系统、计算机设备、存储介质、终端 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN113821025A (zh) | 一种神经网络优化启发函数的移动机器人路径规划方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
CN114662656A (zh) | 一种深度神经网络模型训练方法、自主导航方法及系统 | |
CN111105442A (zh) | 切换式目标跟踪方法 | |
CN113341696A (zh) | 一种运载火箭姿态控制参数智能整定方法 | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
Li et al. | Morphing Strategy Design for UAV based on Prioritized Sweeping Reinforcement Learning | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
CN114995106A (zh) | 基于改进小波神经网络的pid自整定方法、装置和设备 | |
CN115933712A (zh) | 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |