CN110109355A - 一种基于强化学习的无人艇异常工况自愈控制方法 - Google Patents
一种基于强化学习的无人艇异常工况自愈控制方法 Download PDFInfo
- Publication number
- CN110109355A CN110109355A CN201910354486.1A CN201910354486A CN110109355A CN 110109355 A CN110109355 A CN 110109355A CN 201910354486 A CN201910354486 A CN 201910354486A CN 110109355 A CN110109355 A CN 110109355A
- Authority
- CN
- China
- Prior art keywords
- unmanned boat
- intensified learning
- service condition
- unusual service
- healing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于无人艇控制技术领域,公开了一种基于强化学习的无人艇异常工况自愈控制方法。所述基于强化学习的无人艇异常工况自愈控制方法包括:初始模型的建立;利用典型强化学习方法设计得到u;u的训练以及对于无人艇的补偿;实现无人艇异常工况自愈。本发明的基于强化学习的无人艇异常工况自愈控制方法。针对天气、风浪、海草等复杂的海上工作情况,建立一个强化学习的模型反复训练;强化学习具有自我探索的能力,适用于搜索解决方案,将无人艇从异常工况中,恢复性能,实现自愈。
Description
技术领域
本发明属于无人艇控制技术领域,尤其涉及一种基于强化学习的无人艇异常工况自愈控制方法。
背景技术
目前,业内常用的现有技术是这样的:
无人艇是一种响应快速灵活的高精度水面运动平台,以水面舰艇为支援平台,可长时间自主远程航行的无人智能设备。与常规舰船相比,无人艇的优点是吨位小、运输方便、速度快、机动灵活、造价低、环境适应能力强。在交通运输、军事行动、水文、航运、油气勘探与建设、海洋资料收集、科学技术等领域有着广泛的应用。在目标水域,无人艇可以通过无人遥控、按既定方案运行、自主运行等方式工作。在完全自主运行方式下,对无人艇的智能化程度要求较高,也相对更加容易产生异常工况。
无人艇的动态定位与控制通常基于一个远程陆基/母船控制站。控制站与设备之间通过通信网络连接。无人艇工作过程中易受到风浪、水草等因素的影响,实际工作过程中的复杂海况对于无人艇现有的控制方法提出了挑战。无人艇在完全自主运行的方式下,由于无人艇完全无人、自主式的工作特点,也会伴随着一些问题。当无人艇受到复杂海况的影响,进入严重异常工况时,很难及时的进行人工维修去排除异常工况问题。目前,从无人艇的发展技术以及实际操作情况来看,已有的方法都很难解决该问题。根据报道文献检索,目前没有针对无人艇的自愈控制方法。现有的针对无人艇的容错控制技术(改进卡尔曼滤波算法、自适应控制等)多是针对通信网络的异常(延时、丢包、乱序)进行容错控制,而对与无人艇本身的故障进行容错控制的研究成果较少。而对于无人艇的故障诊断的研究成果多为故障检测,故障估计和重构的结果相对较少,这样也给无人艇的容错控制工作带来了一定的难度。
综上所述,现有技术存在的问题是:
当无人艇受到复杂海况的影响,进入严重异常工况时,很难及时的进行人工维修去排除异常工况问题。目前,从无人艇的发展技术以及实际操作情况来看,已有的方法都很难解决该问题。
解决上述技术问题的难度:
由于无人艇完全无人、自主式的工作特点,当无人艇受到复杂海况的影响,进入异常工况时,很难及时的进行人工维修去排除异常工况问题。现有的控制算法多是采用对故障补偿的思想,其基本思路时利用故障诊断单元对故障幅值的最优估计并据此调整控制器参数,实现容错控制。现有基于故障补偿的容错控制直接将故障估计带入控制器进行补偿,并认为该补偿是精确的。事实上由于通信网络的引入,不可避免的会使故障估计结果存在一定延迟和误差,实际系统中这种误差往往不能忽略。
解决上述技术问题的意义:
无人艇的非线性、强耦合、变参数、强扰动、功率受限等特点决定了无人艇的自愈控制理论与方法是具有相当难度的前沿课题,对现有的自愈控制理论和方法提出了挑战。然而,无人艇的另一些特点又使得具备了比一般系统更多的设计裕量,使得可以通过发展新的理论方法解决这些国际前沿的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种基于强化学习的无人艇异常工况自愈控制方法。
本发明是这样实现的,一种基于强化学习的无人艇异常工况自愈控制方法。基于强化学习的无人艇异常工况自愈控制方法包括:
第一步,初始模型的建立;
第二步,利用典型强化学习方法设计得到u;
第三步,u的训练以及对于无人艇的补偿;
第四步,实现无人艇异常工况自愈。
进一步,所述第一步的初始模型的建立具体包括:
根据以往的无人艇故障经验数据,建立一个大体上的强化学习训练模型。
进一步,所述第二步的利用典型强化学习方法设计得到u具体包括:
由于无人艇与环境的实时交互模型是未知的,第一步中建立的大体模型只是根据先前已有的数据建立的,用于对模型不断修正的初始模型。对于u的设计使用时间差分的方法来得到修正的值函数u。时间差分方法结合了蒙特卡罗的采样方法(即做试验)和动态规划方法的bootstrapping(利用后续状态的值函数估计当前的值函数)
时间差分方法的值函数公式更新为:
u(St)←u(St)+α(Rt+1+γu(St+1)-u(St))
式中u(St)为在状态时的值函数,γ为折扣因子,Rt+1+γu(St+1)为TD目标,δt=Rt+1+γu(St+1)-u(St)为TD偏差;
u(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]
进一步,所述第三步的u的训练以及对于无人艇的补偿具体包括:
u的训练采用TD(λ)的方法:
Gt (1)=Rt+1+γu(St+1)
Gt (2)=Rt+1+γR(St+2)+γ2u(St+1)
Gt (n)=Rt+1+γR(St+2)+…+γn-1R(St+n)+γnu(St+n)
u补偿故障:
进一步,所述第二步中的典型强化学习设计方法包括:值函数强化学习方法,直接策略搜索方法,逆向强化学习等。
进一步,根据强化学习方法建立的训练自愈模型的传递函数也可以是状态空间模型。
本发明的另一目的在于提供状态空间模型算法。
下面对状态空间模型作进一步说明。
首先,设计无人艇的动力学模型如下:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动,M、N、G为适当维数的矩阵。
在发生故障时的动力学模型如下:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动;f为故障信息,M、N、G、F为适当维数的矩阵。
综上所述,本发明的优点及积极效果为:
本发明的基于强化学习的无人艇异常工况自愈控制方法。针对天气、风浪、海草等复杂的海上工作情况,建立一个强化学习的模型反复训练;强化学习具有自我探索的能力,适用于搜索解决方案,将无人艇从异常工况中,恢复性能,实现自愈。
附图说明
图1是本发明实施例提供的基于强化学习的无人艇异常工况自愈控制方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于强化学习的无人艇异常工况自愈控制方法包括以下步骤:
S101:初始模型的建立;
S102:利用典型强化学习方法设计得到u;
S103:u的训练以及对于无人艇的补偿;
S104:实现无人艇异常工况自愈。
进一步,所述第一步的初始模型的建立具体包括:
根据以往的无人艇故障经验数据,建立一个大体上的强化学习训练模型。
进一步,所述第二步的利用典型强化学习方法设计得到u具体包括:
由于无人艇与环境的实时交互模型是未知的,第一步中建立的大体模型只是根据先前已有的数据建立的,用于对模型不断修正的初始模型。对于u的设计使用时间差分的方法来得到修正的值函数u。时间差分方法结合了蒙特卡罗的采样方法(即做试验)和动态规划方法的bootstrapping(利用后续状态的值函数估计当前的值函数)
时间差分方法的值函数公式更新为:
u(St)←u(St)+α(Rt+1+γu(St+1)-u(St))
式中u(St)为在状态时的值函数,γ为折扣因子,Rt+1+γu(St+1)为TD目标,δt=Rt+1+γu(St+1)-u(St)为TD偏差;
u(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]
进一步,所述第三步的u的训练以及对于无人艇的补偿具体包括:
u的训练采用TD(λ)的方法:
Gt (1)=Rt+1+γu(St+1)
Gt (2)=Rt+1+γR(St+2)+γ2u(St+1)
Gt (n)=Rt+1+γR(St+2)+…+γn-1R(St+n)+γnu(St+n)
u补偿故障:
进一步,所述第二步中的典型强化学习设计方法包括:值函数强化学习方法,直接策略搜索方法,逆向强化学习等。
进一步,根据强化学习方法建立的训练自愈模型的传递函数也可以是状态空间模型。
下面对状态空间模型作进一步说明。
首先,设计无人艇的动力学模型如下:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动,M、N、G为适当维数的矩阵。
在发生故障时的动力学模型如下:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动;f为故障信息,M、N、G、F为适当维数的矩阵。
作为本发明的实施例,当无人艇被水草缠住时,可以利用强化学习训练的得到模型控制来设计行进方向,实现解锁。
本发明的基于强化学习的无人艇异常工况自愈控制方法。针对天气、风浪、海草等复杂的海上工作情况,建立一个强化学习的模型反复训练;强化学习具有自我探索的能力,适用于搜索解决方案,将无人艇从异常工况中,恢复性能,实现自愈。
证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据、证据材料、鉴定报告、商业数据、研发证据、商业合作证据等)
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述基于强化学习的无人艇异常工况自愈控制方法包括:
第一步,初始模型的建立;
第二步,利用典型强化学习方法设计得到u;
第三步,u的训练以及对于无人艇的补偿;
第四步,实现无人艇异常工况自愈。
2.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述第一步的初始模型的建立具体包括:
根据以往的无人艇故障经验数据,建立一个大体上的强化学习训练模型。
3.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述第二步的利用典型强化学习方法设计得到u具体包括:
由于无人艇与环境的实时交互模型是未知的,第一步中建立的大体模型只是根据先前已有的数据建立的,用于对模型不断修正的初始模型,对于u的设计使用时间差分的方法来得到修正的值函数u;时间差分方法结合了蒙特卡罗的采样方法和动态规划方法的利用后续状态的值函数估计当前的值函数;
时间差分方法的值函数公式更新为:
u(St)←u(St)+α(Rt+1+γu(St+1)-u(St))
式中u(St)为在状态时的值函数,γ为折扣因子,Rt+1+γu(St+1)为TD目标,δt=Rt+1+γu(St+1)-u(St)为TD偏差;
u(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]。
4.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述第三步的u的训练以及对于无人艇的补偿具体包括:
u的训练采用TD(λ)的方法:
Ct (1)=Rt+1+γu(St+1)
Gt(2)=Rt+1+γR(St+2)+γ2u(St+1)
Ct (n)=Rt+1+γR(St+2)+…+γn-1R(St+n)+γnu(St+n)
u补偿故障:
5.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述根据强化学习方法建立的训练自愈模型的传递函数可以是状态空间模型。
6.如权利要求5所述的基于强化学习的无人艇异常工况自愈控制方法,其特征在于,所述状态空间模型算法为:
设计无人艇的动力学模型:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动,M、N、G为适当维数的矩阵;
在发生故障时的动力学模型如下:
其中,v为船体运动状态信息;为船体位置信息;u为主推进器及方向舵控制输入;ω为外部扰动;f为故障信息,M、N、G、F为适当维数的矩阵。
7.一种应用权利要求1~5任意一项所述基于强化学习的无人艇异常工况自愈控制方法的无人艇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354486.1A CN110109355A (zh) | 2019-04-29 | 2019-04-29 | 一种基于强化学习的无人艇异常工况自愈控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354486.1A CN110109355A (zh) | 2019-04-29 | 2019-04-29 | 一种基于强化学习的无人艇异常工况自愈控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110109355A true CN110109355A (zh) | 2019-08-09 |
Family
ID=67487366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354486.1A Pending CN110109355A (zh) | 2019-04-29 | 2019-04-29 | 一种基于强化学习的无人艇异常工况自愈控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110109355A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112034711A (zh) * | 2020-08-31 | 2020-12-04 | 东南大学 | 一种基于深度强化学习的无人艇抗海浪干扰控制方法 |
CN112540614A (zh) * | 2020-11-26 | 2021-03-23 | 江苏科技大学 | 一种基于深度强化学习的无人艇航迹控制方法 |
CN114296350A (zh) * | 2021-12-28 | 2022-04-08 | 中山大学 | 一种基于模型参考强化学习的无人船容错控制方法 |
WO2023108494A1 (zh) * | 2021-12-15 | 2023-06-22 | 中国科学院深圳先进技术研究院 | 一种概率滤波强化学习无人船控制方法、装置及终端设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140213126A1 (en) * | 2012-11-02 | 2014-07-31 | Raytheon Company | Unmanned Underwater Vehicle |
CN106338919A (zh) * | 2016-11-02 | 2017-01-18 | 哈尔滨工程大学 | 基于增强学习型智能算法的无人艇航迹跟踪控制方法 |
CN107121928A (zh) * | 2017-05-22 | 2017-09-01 | 华南理工大学 | 一种无人水面艇的扰动补偿控制方法 |
CN108197350A (zh) * | 2017-12-11 | 2018-06-22 | 大连海事大学 | 一种无人船速度和不确定性估计系统及设计方法 |
CN108803632A (zh) * | 2018-09-19 | 2018-11-13 | 哈尔滨工程大学 | 基于饱和补偿技术的水面无人艇全状态约束轨迹跟踪控制方法 |
-
2019
- 2019-04-29 CN CN201910354486.1A patent/CN110109355A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140213126A1 (en) * | 2012-11-02 | 2014-07-31 | Raytheon Company | Unmanned Underwater Vehicle |
CN106338919A (zh) * | 2016-11-02 | 2017-01-18 | 哈尔滨工程大学 | 基于增强学习型智能算法的无人艇航迹跟踪控制方法 |
CN107121928A (zh) * | 2017-05-22 | 2017-09-01 | 华南理工大学 | 一种无人水面艇的扰动补偿控制方法 |
CN108197350A (zh) * | 2017-12-11 | 2018-06-22 | 大连海事大学 | 一种无人船速度和不确定性估计系统及设计方法 |
CN108803632A (zh) * | 2018-09-19 | 2018-11-13 | 哈尔滨工程大学 | 基于饱和补偿技术的水面无人艇全状态约束轨迹跟踪控制方法 |
Non-Patent Citations (1)
Title |
---|
孙魁: "基于强化学习的AUV避障研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112034711A (zh) * | 2020-08-31 | 2020-12-04 | 东南大学 | 一种基于深度强化学习的无人艇抗海浪干扰控制方法 |
CN112034711B (zh) * | 2020-08-31 | 2022-06-03 | 东南大学 | 一种基于深度强化学习的无人艇抗海浪干扰控制方法 |
CN112540614A (zh) * | 2020-11-26 | 2021-03-23 | 江苏科技大学 | 一种基于深度强化学习的无人艇航迹控制方法 |
CN112540614B (zh) * | 2020-11-26 | 2022-10-25 | 江苏科技大学 | 一种基于深度强化学习的无人艇航迹控制方法 |
WO2023108494A1 (zh) * | 2021-12-15 | 2023-06-22 | 中国科学院深圳先进技术研究院 | 一种概率滤波强化学习无人船控制方法、装置及终端设备 |
CN114296350A (zh) * | 2021-12-28 | 2022-04-08 | 中山大学 | 一种基于模型参考强化学习的无人船容错控制方法 |
CN114296350B (zh) * | 2021-12-28 | 2023-11-03 | 中山大学 | 一种基于模型参考强化学习的无人船容错控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110109355A (zh) | 一种基于强化学习的无人艇异常工况自愈控制方法 | |
Xiang et al. | Survey on fuzzy-logic-based guidance and control of marine surface vehicles and underwater vehicles | |
Wang et al. | Autonomous pilot of unmanned surface vehicles: Bridging path planning and tracking | |
Hao et al. | Fault tolerant control for dynamic positioning of unmanned marine vehicles based on TS fuzzy model with unknown membership functions | |
Li et al. | Adaptive NN event-triggered control for path following of underactuated vessels with finite-time convergence | |
Gu et al. | Distributed containment maneuvering of uncertain under-actuated unmanned surface vehicles guided by multiple virtual leaders with a formation | |
Liu et al. | Collective dynamics and control for multiple unmanned surface vessels | |
Bai et al. | A review of current research and advances in unmanned surface vehicles | |
Hu et al. | Distributed surrounding control of multiple unmanned surface vessels with varying interconnection topologies | |
CN110262494B (zh) | 一种同构多无人艇系统的协同学习与编队控制方法 | |
CN110609556A (zh) | 一种基于los导航法的多无人艇协同控制方法 | |
Sharma et al. | An autopilot based on a local control network design for an unmanned surface vehicle | |
Liao et al. | The intelligent control system and experiments for an unmanned wave glider | |
Meyrowitz et al. | Autonomous vehicles | |
Wang et al. | A simultaneous planning and control method integrating APF and MPC to solve autonomous navigation for USVs in unknown environments | |
Hao et al. | Fault-tolerant control via integral sliding mode output feedback for unmanned marine vehicles | |
Yu et al. | Practical formation‐containment tracking for multiple autonomous surface vessels system | |
Tuo et al. | Reliability-based fixed-time nonsingular terminal sliding mode control for dynamic positioning of turret-moored vessels with uncertainties and unknown disturbances | |
Li et al. | Observer-based adaptive fuzzy event-triggered path following control of marine surface vessel | |
Er et al. | Intelligent motion control of unmanned surface vehicles: A critical review | |
Londhe et al. | Robust proportional derivative (PD)-like fuzzy control designs for diving and steering planes control of an autonomous underwater vehicle | |
Tu et al. | Adaptive dynamic positioning control for accommodation vessels with multiple constraints | |
Hao et al. | Layered fully distributed formation-containment tracking control for multiple unmanned surface vehicles | |
Lv et al. | Barrier-certified model predictive cooperative path following control of connected autonomous surface vehicles | |
Yang et al. | Fast marine route planning for UAV using improved sparse A* algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |