CN114967713B - 基于强化学习的水下航行器浮力离散变化下的控制方法 - Google Patents
基于强化学习的水下航行器浮力离散变化下的控制方法 Download PDFInfo
- Publication number
- CN114967713B CN114967713B CN202210897366.8A CN202210897366A CN114967713B CN 114967713 B CN114967713 B CN 114967713B CN 202210897366 A CN202210897366 A CN 202210897366A CN 114967713 B CN114967713 B CN 114967713B
- Authority
- CN
- China
- Prior art keywords
- underwater vehicle
- network
- buoyancy
- strategy
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 75
- 238000007667 floating Methods 0.000 claims abstract description 52
- 239000006185 dispersion Substances 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 48
- 230000009471 action Effects 0.000 claims description 43
- 210000002569 neuron Anatomy 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000001133 acceleration Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000013178 mathematical model Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/40—Control within particular dimensions
- G05D1/48—Control of altitude or depth
- G05D1/485—Control of rate of change of altitude or depth
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2101/00—Details of software or hardware architectures used for the control of position
- G05D2101/10—Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques
- G05D2101/15—Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques using machine learning, e.g. neural networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2107/00—Specific environments of the controlled vehicles
- G05D2107/25—Aquatic environments
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D2109/00—Types of controlled vehicles
- G05D2109/30—Water vehicles
- G05D2109/38—Water vehicles operating under the water surface, e.g. submarines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。
Description
技术领域
本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制技术领域。
背景技术
在海洋开发日益重要的现在,水下航行器越来越得到各个国家的重视,无论是在民用还是在军用上,都扮演着重要的角色。保证水下航行器的自主性与可控性是水下航行器控制的基本要求,也是最重要的功能。但由于水下航行器具有强耦合性、高度非线性等特点,在水下环境运行时又容易受到洋流等因素干扰,导致水下航行器的控制难度增大。
水下航行器控制包括路径跟踪控制、轨迹跟踪控制、上浮控制等。经典控制技术虽然取得了重大成就,但水下航行器复杂的操作条件和面临的恶劣水下环境对自主性与可控性的要求更高。水下航行器具有模型复杂、非线性与耦合性强、欠驱动的特点,当水下航行器遇到卡舵、推进器故障等问题时,使水下航行器在最短时间内上浮到水面的控制难度更大。深度强化学习具有强大的感知能力与决策能力,能自主适应恶劣的水下环境与水下航行器复杂的操作条件,面对不同的故障问题具有一定的自适应性,是实现水下航行器控制自主性与可控性的优选方法。
近年来,深度强化学习在处理很多具有挑战性的问题上表现出优异性能,如深度Q
网络(DQN)。但对于高维和连续动作空间的水下航行器的控制问题来说,DQN达不到控制要
求,于是深度确定性策略梯度(Deep Deterministic policy gradient, DDPG)算法被提
出。然而,DDPG存在与DQN存在相同的问题,即Q值(Q值代表智能体在状态s时,执行动作a后
一直到最终状态奖励r总和的期望,其中是Q值的具体体现之一)会被高估,于是在此基
础上,双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy
gradient,TD3)算法被提出。
传统的TD3算法虽然在一定程度上解决了Q值被高估的问题,但稳定性和收敛性较差。
发明内容
针对现有技术的不足,本发明提供一种基于强化学习的水下航行器浮力离散变化下的控制方法,在TD3算法的基础上改进了网络结构,使算法稳定性与收敛性更好,本发明基于改进的TD3算法,采用策略-评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下的上浮控制的自主性与可控性。
本发明采用以下技术方案:
一种基于强化学习的水下航行器浮力离散变化下的控制方法,包括如下步骤:
步骤1、定义水下航行器浮力离散变化的上浮控制问题包括四部分:确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标;
步骤2、建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将步骤1建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;
步骤3、构建策略-评价网络:
(3-1)构建策略网络
通过构建策略网络来输出当前状态下的动作,策略网络包括一个当前策略网
络和一个目标策略网络,当前策略网络和目标策略网络均包括一个输入层、两个隐藏层和
一个输出层并且各层之间均为全连接的神经网络;输入层的输入为状态向量,神经元个
数为状态向量的维度;隐藏层神经元个数为512;输出层的输出为动作,神经元个数为动
作的维度;
(3-2)构建评价网络
评价网络包括三个当前评价网络和三个目标评价网络,三个当前评价网络和三个
目标评价网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神
经网络,输入层的输入为状态向量,神经元个数为状态向量的维度;隐藏层神经元个数
为512,动作值作为第一个隐藏层的输入;输出层的输出为动作对应的价值
,神经元个数为动作价值的维度;
(3-3)确定目标策略
步骤4、求解水下航行器的目标策略。
本发明在TD3的基础上,改进了TD3的网络结构,使算法稳定性与收敛性更好,解决了水下航行器高维连续动作空间的控制问题,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。
浮力离散变化是在水下航行器发生故障,比如推进器失能,无法为水下航行器提
供动力时,使用紧急措施为水下航行器提供数值大小远超过自身重力的浮力,此时的浮力
如图4所示,横坐标为时间t,纵坐标为浮力F,代表最大的浮力值,方向垂直向上;F G 代
表与重力大小相等的浮力值,方向垂直向上;0-t 1、t 2-t 3时刻代表浮力持续时间,t 1-t 2为冷
却时间。
优选的,步骤1的具体步骤如下:
(1-1)确定水下航行器系统输入
传感器包括陀螺仪、多普勒测速仪等,用来获取水下航行器的位姿、速度、推力信息,路径规划模块可集成在控制器中,用于给出参考位置信息,传感器、路径规划模块均为本领域的常规结构,上一时间步是指在控制器运行过程中,时间是离散的,每一个离散的时间单位在这里称为一个时间步;
(1-2)确定水下航行器系统输出
(1-3)计算位置误差
(1-4)建立水下航行器浮力离散变化条件下的上浮控制目标
优选的,步骤2的具体步骤如下:
(2-1)定义状态向量
(2-2)定义动作向量
(2-3)定义奖励函数
(2-4)将建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标,具体的,定义策略π为在某一状态下选择各个可能动作的概率,定义动作值函数如下:
值得注意的是,步骤2建立的马尔科夫决策模型是建立控制方法的机制,并没有用到受控过程的数学模型,即马尔科夫决策模型不属于受控过程的数学模型。
优选的,步骤4的具体步骤如下:
(4-1)参数设置
采用Adam优化器,策略网络学习率为,评价网络学习率为
,学习率是神经网络设置中的基础参数,策略网络学习率和评价网络学习率都代表了在梯
度下降法中,使用损失函数的梯度调整网络参数的程度,学习率越大,对参数的调整越大,
反之则对参数的调整越小;折扣因子为γ,调整因子为λ,最大训练步数T,软更新系数β,噪
声ε,经验集大小为D,批量选择的样本数m,当前策略网络更新间隔步数,目标网络更
新频率C;
(4-2)初始化策略-评价网络参数
(4-3)迭代开始,对策略-评价网络进行训练,初始化迭代次数episode=1;
(4-7)如果当前时间步数小于10000,则重复步骤(4-5)与(4-6)以填充经验集,否则进入下一步骤;
(4-13)迭代结束,将学习到的策略与评价网络作为控制网络,实现对水下航行器浮力离散变化条件下的上浮控制。
优选的,步骤(1-2)中水平舵舵角、垂直舵舵角的最大值均为±15°。
优选的,步骤(4-1)中,折扣因子γ=0.99,调整因子为λ=0.9,最大训练步数T=
500000,软更新系数β=0.005,经验集大小D=10000,批量选择的样本数m=256,当前策略
网络更新间隔步数,目标网络更新频率C=2。
本发明中未详尽之处,均可采用现有技术进行。
本发明的有益效果为:
(1)本发明提出了一种基于强化学习的水下航行器浮力离散变化下的控制方法,该方法采用一种策略-评价网络结构,用于水下航行器推进器故障,即推进器失能的情况下,将采集到原始传感器信息、参考位置信息、上一时刻的输出作为当前时刻系统输入,输出舵角指令,使水下航行器平稳上浮至水面,实现浮力离散变化条件下的水下航行器上浮控制;本发明针对的是水下航行器推进器故障的情况,使用一种浮力离散变化条件下的紧急挽救方式,使水下航行器快速且平稳地上浮至水面。使用深度强化学习方法,具有很好的自主性,可以拓展至不同紧急情况下的推进器故障问题。
(2)本发明中的控制方法中控制器的设计仅利用受控系统的输入输出数据,控制器中不包含受控过程的数学模型,即本发明的控制方法是无模型的,故不需要复杂的建模,而且可以很好地适用于强耦合性与强非线性特点的水下航行器;
附图说明
图1为本发明的基于强化学习的水下航行器浮力离散变化下的控制方法框架示意图;
图2为策略网络结构示意图;
图3为评价网络结构示意图;
图4为浮力变化示意图;
图5为水下航行器所在的坐标系示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
一种基于强化学习的水下航行器浮力离散变化下的控制方法,因深度强化学习方法强大的自适应性,该方法适用于不同型号的水下航行器,只需在应用时重新修改参数设置即可,具体的,在模拟训练时直接将质量、长度、力系数、力矩转矩系数换成相应型号水下航行器的系数。
实施例1
一种基于强化学习的水下航行器浮力离散变化下的控制方法,本实施例以广泛使用的REMUS水下航行器为例进行说明,如图1所示,包括如下步骤:
步骤1、定义水下航行器浮力离散变化的上浮控制问题包括四部分:确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标,具体如下:
(1-1)确定水下航行器系统输入
传感器包括陀螺仪、多普勒测速仪等,用来获取水下航行器的位姿、速度、推力信息,路径规划模块可集成在控制器中,用于给出参考位置信息,传感器、路径规划模块均为本领域的常规结构,上一时间步是指在控制器运行过程中,时间是离散的,每一个离散的时间单位在这里称为一个时间步;
(1-2)确定水下航行器系统输出
(1-3)计算位置误差
(1-4)建立水下航行器浮力离散变化条件下的上浮控制目标
步骤2、建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型
(2-1)定义状态向量
(2-2)定义动作向量
(2-3)定义奖励函数
(2-4)将步骤(1-4)建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标,具体的,定义策略π为在某一状态下选择各个可能动作的概率,定义动作值函数如下:
值得注意的是,步骤2建立的马尔科夫决策模型是建立控制方法的机制,并没有用到受控过程的数学模型,即马尔科夫决策模型不属于受控过程的数学模型。
步骤3、构建策略-评价网络:
(3-1)构建策略网络
通过构建策略网络来输出当前状态下的动作,策略网络包括一个当前策略网
络和一个目标策略网络,当前策略网络和目标策略网络均包括一个输入层、两个隐藏层和
一个输出层并且各层之间均为全连接的神经网络;输入层的输入为状态向量,神经元个
数为状态向量的维度;隐藏层神经元个数为512;输出层的输出为动作,神经元个数为动
作的维度;
(3-2)构建评价网络
评价网络包括三个当前评价网络和三个目标评价网络,三个当前评价网络和三个
目标评价网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神
经网络,输入层的输入为状态向量,神经元个数为状态向量的维度;隐藏层神经元个数为
512,动作值作为第一个隐藏层的输入;输出层的输出为动作对应的价值,神
经元个数为动作价值的维度;
(3-3)确定目标策略
步骤4、求解水下航行器的目标策略,具体步骤如下:
(4-1)参数设置
采用Adam优化器,策略网络学习率为,评价网络学习率为
,学习率是神经网络设置中的基础参数,策略网络学习率和评价网络学习率都代表了在梯
度下降法中,使用损失函数的梯度调整网络参数的程度,学习率越大,对参数的调整越大,
反之则对参数的调整越小;折扣因子γ=0.99,调整因子λ=0.9,最大训练步数T=500000,软
更新系数β=0.005,噪声ε,经验集大小D=10000,批量选择的样本数m=256,当前策略网络
更新间隔步数,目标网络更新频率C=2;
(4-2)初始化策略-评价网络参数
(4-3)迭代开始,对策略-评价网络进行训练,初始化迭代次数episode=1;
(4-7)如果当前时间步数小于10000,则重复步骤(4-5)与(4-6)以填充经验集,否则进入下一步骤;
(4-13)迭代结束,将学习到的策略与评价网络作为控制网络,实现对水下航行器浮力离散变化条件下的上浮控制。
如图2为策略网络结构示意图,其中观察量为系统输入,舵角为系统输出;
如图3为评价网络结构示意图,动作值是从第一个隐藏层输入。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于强化学习的水下航行器浮力离散变化下的控制方法,其特征在于,包括如下步骤:
步骤1、定义水下航行器浮力离散变化的上浮控制问题,包括确定水下航行器系统输入、确定水下航行器系统输出、计算位置误差和建立水下航行器浮力离散变化条件下的上浮控制目标;
步骤2、建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将步骤1建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;
步骤3、构建策略-评价网络:
(3-1)构建策略网络
通过构建策略网络来输出当前状态下的动作,策略网络包括一个当前策略网络和一个目标策略网络,当前策略网络和目标策略网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络;输入层的输入为状态向量,神经元个数为状态向量的维度;隐藏层神经元个数为512;输出层的输出为动作,神经元个数为动作的维度;
(3-2)构建评价网络
评价网络包括三个当前评价网络和三个目标评价网络,三个当前评价网络和三个目标评价网络均包括一个输入层、两个隐藏层和一个输出层并且各层之间均为全连接的神经网络,输入层的输入为状态向量,神经元个数为状态向量的维度;隐藏层神经元个数为512,动作值作为第一个隐藏层的输入;输出层的输出为动作对应的价值,神经元个数为动作价值的维度;
(3-3)确定目标策略
步骤4、求解水下航行器的目标策略;
步骤1的具体步骤如下:
(1-1)确定水下航行器系统输入
(1-2)确定水下航行器系统输出
(1-3)计算位置误差
(1-4)建立水下航行器浮力离散变化条件下的上浮控制目标
2.根据权利要求1所述的基于强化学习的水下航行器浮力离散变化下的控制方法,其特征在于,步骤2的具体步骤如下:
(2-1)定义状态向量
(2-2)定义动作向量
(2-3)定义奖励函数
(2-4)将建立的水下航行器浮力离散变化条件下的上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标,具体的,定义策略为在某一状态下选择各个可能动作的概率,定义动作值函数如下:
3.根据权利要求2所述的基于强化学习的水下航行器浮力离散变化下的控制方法,其特征在于,步骤4的具体步骤如下:
(4-1)参数设置
采用Adam优化器,策略网络学习率为,评价网络学习率为;折扣因子为γ,调整因子为λ,最大训练步数T,软更新系数β,噪声ε,经验集大小为D,批量选择的样本数m,当前策略网络更新间隔步数,目标网络更新频率C;
(4-2)初始化策略-评价网络参数
(4-3)迭代开始,对策略-评价网络进行训练,初始化迭代次数episode=1;
(4-7)如果当前时间步数小于10000,则重复步骤(4-5)与(4-6)以填充经验集,否则进入下一步骤;
(4-13)迭代结束,将学习到的策略与评价网络作为控制网络,实现对水下航行器浮力离散变化条件下的上浮控制。
5.根据权利要求4所述的基于强化学习的水下航行器浮力离散变化下的控制方法,其特征在于,步骤(1-2)中水平舵舵角、垂直舵舵角的最大值均为±15°。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897366.8A CN114967713B (zh) | 2022-07-28 | 2022-07-28 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897366.8A CN114967713B (zh) | 2022-07-28 | 2022-07-28 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114967713A CN114967713A (zh) | 2022-08-30 |
CN114967713B true CN114967713B (zh) | 2022-11-29 |
Family
ID=82969302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210897366.8A Active CN114967713B (zh) | 2022-07-28 | 2022-07-28 | 基于强化学习的水下航行器浮力离散变化下的控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114967713B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457781B (zh) * | 2022-09-13 | 2023-07-11 | 内蒙古工业大学 | 一种基于多代理深度强化学习的智能交通信号灯控制方法 |
CN117376661B (zh) * | 2023-12-06 | 2024-02-27 | 山东大学 | 一种基于神经网络的细粒度视频流自适应调节系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108873687A (zh) * | 2018-07-11 | 2018-11-23 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
CN111966118A (zh) * | 2020-08-14 | 2020-11-20 | 哈尔滨工程大学 | 一种rov推力分配与基于强化学习的运动控制方法 |
CN112462792A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 一种基于Actor-Critic算法的水下机器人运动控制方法 |
CN113010963A (zh) * | 2021-03-04 | 2021-06-22 | 山东大学 | 基于深度强化学习的变质量水下航行器避障方法及系统 |
CN113033118A (zh) * | 2021-03-10 | 2021-06-25 | 山东大学 | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
-
2022
- 2022-07-28 CN CN202210897366.8A patent/CN114967713B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108873687A (zh) * | 2018-07-11 | 2018-11-23 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
CN111966118A (zh) * | 2020-08-14 | 2020-11-20 | 哈尔滨工程大学 | 一种rov推力分配与基于强化学习的运动控制方法 |
CN112462792A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 一种基于Actor-Critic算法的水下机器人运动控制方法 |
CN113010963A (zh) * | 2021-03-04 | 2021-06-22 | 山东大学 | 基于深度强化学习的变质量水下航行器避障方法及系统 |
CN113033118A (zh) * | 2021-03-10 | 2021-06-25 | 山东大学 | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
Non-Patent Citations (2)
Title |
---|
Reinforcement Learning Based Relay Selection for Underwater Acoustic Cooperative Networks;Yuzhi Zhang et al.;《MDPI》;20220315;第1-27页 * |
基于TD3的AUV智能控制方法研究;李茹;《信息科技辑》;20211215;第17-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114967713A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114967713B (zh) | 基于强化学习的水下航行器浮力离散变化下的控制方法 | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
CN112462792B (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN114839884B (zh) | 一种基于深度强化学习的水下航行器底层控制方法及系统 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN110928189A (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
WO2020024172A1 (zh) | 多状态连续动作空间的合作式方法及系统 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN109740741B (zh) | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 | |
Zhang et al. | AUV path tracking with real-time obstacle avoidance via reinforcement learning under adaptive constraints | |
CN113221444B (zh) | 一种面向空中智能博弈的行为模仿训练方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113033118B (zh) | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 | |
CN111176122A (zh) | 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
CN115826621B (zh) | 一种基于深度强化学习的无人机运动规划方法及系统 | |
CN114396949B (zh) | 一种基于ddpg的移动机器人无先验地图导航决策方法 | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
CN115933712A (zh) | 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |