CN109491240A - 交互强化学习方法在水下机器人中的应用 - Google Patents
交互强化学习方法在水下机器人中的应用 Download PDFInfo
- Publication number
- CN109491240A CN109491240A CN201811200110.7A CN201811200110A CN109491240A CN 109491240 A CN109491240 A CN 109491240A CN 201811200110 A CN201811200110 A CN 201811200110A CN 109491240 A CN109491240 A CN 109491240A
- Authority
- CN
- China
- Prior art keywords
- auv
- control strategy
- learning
- control
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003993 interaction Effects 0.000 title claims abstract description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 8
- 238000011217 control strategy Methods 0.000 claims abstract description 48
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000005094 computer simulation Methods 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims abstract description 3
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 22
- 230000000694 effects Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Motorcycle And Bicycle Frame (AREA)
Abstract
本发明公开了交互强化学习方法在水下机器人中的应用,本发明所采用的技术方案是:首先,对AUV进行仿真建模,在仿真环境中AUV利用训练者的经验知识通过交互强化学习方法提取所有有用的信息,并初步学习控制策略,一旦训练者认定AUV获得足够的知识并建立了一个安全的控制策略,用仿真学习得到的初始控制策略转移到AUV,在真实环境中在线学习,采用AUV在线自主学习控制技术,继续改进控制策略,作为AUV在真实环境中运行的控制策略。本发明的有益效果是采用最新提出的交互强化学习方法结合极限学习机等在线机器学习技术加速AUV自主学习过程,减少在线学习所需样本数和学习过程中由于试错产生的不必要的错误和损失,最终实现AUV的快速自主控制。
Description
技术领域
本发明属于机器人控制技术领域,涉及交互强化学习方法在水下机器人中的应用。
背景技术
自主式水下航行器(Autonomous Underwater Vehicle,AUV)要在复杂且不可预知水下环境中自主完成预定任务,精确可靠的控制是必不可少的。传统的控制方法需要精确的数学模型或解决系统耦合性能力较差,虽然对于系统内部特性的变化和外部扰动的影响都具有一定的抑制能力,但是由于控制器参数是固定的,所以当系统内部特性变化或者当外部扰动的变化幅度很大时,系统的性能常常会大幅度下降甚至是不稳定,往往需要线下重新调整控制参数,不能实时地对不可预测的环境变化作出反应和调整。
与此相比,强化学习可以实现在线参数调整,在没有精确地数学模型或耦合性较高的系统中,可以获得良好的控制效果。但是,目前在传统强化学习方法中,定义一个有效的奖赏函数并不是简单的事,这需要控制器的设计人员凭领域知识定义,还需要经过多次调试才能完成。采用一个低效的奖赏函数会在很大程度上影响到最终的最优策略,并意味着控制器需要大量的学习样本和时间去试错和探索,尤其是在学习的初始阶段,这很可能为AUV在线学习造成不必要的错误和损失。
发明内容
本发明提供交互强化学习方法在水下机器人中的应用,利用训练者的经验知识来提高AUV自主学习速度的技术,避免传统强化学习方法繁琐的调试和不必要的试错;将离线获得的策略作为AUV在实际环境中运行的初始控制策略,通过在线自主学习改进控制策略,提高稳定性。
为了实现上述目标,本发明所采用的技术方案如下:
首先,对AUV进行仿真建模,在仿真环境中AUV利用训练者的经验知识通过交互强化学习方法提取所有有用的信息,并初步学习控制策略,一旦训练者认定AUV获得足够的知识并建立了一个安全的控制策略,就将仿真学习得到的初始控制策略转移到AUV,在真实环境中在线学习,采用AUV在线自主学习控制技术,继续改进控制策略,作为AUV在真实环境中运行的控制策略。
进一步,交互强化学习方法首先探测AUV在仿真环境中所处的状态,根据当前的控制策略选择并执行一个动作,训练者观察控制器在当前状态下所选择的动作,并根据自己的经验知识评估其质量,控制器以此评估信号作为奖赏信号更新控制策略,直到训练者认定控制器的策略足够安全为止,最后将学习到的控制策略移植到AUV,作为AUV在真实环境中在线学习的初始控制策略。
进一步,离线仿真训练所得的初始控制策略移植到AUV以后,控制器需要继续在线自主学习,AUV探测数据并判断当前所处的状态,控制器依据离线获得的初始控制策略选择并执行动作,AUV依据预先定义的奖赏函数的环境奖赏信号更新控制策略,并判断是否最优控制策略,若是最优控制策略,结束当前学习并执行相应动作;若不是,则重新进行此学习过程,直到达到最优控制策略为止,通过在线自主学习控制技术达到最优的控制效果。
附图说明
图1是交互强化学习方法加速AUV自主学习技术路线示意图;
图2是AUV在线自主学习控制技术路线示意图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明的实施过程分为离线仿真训练获得初始控制策略和在线自主学习改进控制策略两部分:
首先,对AUV进行仿真建模,在仿真环境中AUV探测数据并判断当前所处的状态,控制器依据自己的初始策略选择并执行一个动作,训练者通过观察控制器的动作,并依据自己的经验对当前环境下控制器所选择的动作进行评估,训练者对他所认为的控制器执行的正确动作给予一个积极的反馈作为鼓励信号,当控制器选择执行一个不合适的动作时训练者给它一个负的反馈信号,告诉控制器它当前状态下采取的动作是错误的,控制器通过训练者给出的反馈及时调整控制策略,一直到训练者认定AUV获得足够的知识并建立了一个安全的控制策略,就将学习的控制策略移植到真正的AUV上,作为AUV在真实环境中运行的初始控制策略,从而大大减少AUV在真实环境中的在线学习时间,避免不必要的试错造成的损失。图1为交互强化学习方法加速AUV自主学习技术路线示意图。
其次,由于AUV运行的实际环境复杂多变,往往不同于仿真环境。离线仿真训练所得的初始控制策略移植到AUV后,控制器需要继续在线学习,通过自动调整适应真实运行环境,改进初始控制策略,提高稳定性。仿真阶段训练者提供的人的奖赏信号虽然可以提高学习速度,但由于人的奖赏信号是主观的,且一般有不可避免的缺陷,控制策略很难达到最优的学习效果。相比之下,预定义奖赏函数提供的环境奖赏信号虽然学习速度慢,但是客观且无缺陷,最终可以达到最优学习效果。另一方面,由于离线学习已经获得有效的初始控制策略,AUV在实际环境中的奖赏信号可以通过简单预定义的奖赏函数提供,不需要对奖赏函数做反复的调试。因此,本发明通过离线和在线的方式结合人的奖赏信号和环境奖赏信号,以期达到既可以减少学习时间,又可以最终获得比其中任何一种奖赏信号都要好的最优学习效果。本发明采取的AUV在线自主学习控制技术路线如图2所示。
本发明中采用动作-评价者(Actor-Critic)方法作为AUV在线自主学习的算法。在强化学习中,值函数方法最为常用,值函数方法适用于具有离散动作空间的系统,控制器通过与环境的交互学习优化值函数,控制策略直接从值函数中获取,但这种方法学习的控制策略泛化能力差,并且容易在最优和次优策略间震荡,对具有连续动作空间的系统而言计算量大;而策略梯度(Policy Gradient)方法能够收敛到最优策略,通过对控制策略采用函数逼近方法(Function Approximation)解决了泛化问题,适用于具有连续动作空间的系统,但学习速度比较慢。动作-评价者(Actor-Critic)算法有效地结合了强化学习值函数方法和策略梯度法的优点,能够有效地减少收敛所需时间,计算量小,适合线上学习,并且避免获得一个局部最优策略。该算法通过评价者模块(Critic)维持一个值函数,同时通过动作模块(Actor)维持一个分离的参数化的控制策略。由于控制策略与值函数分离,在值函数出现较大的变化时,可以有效的避免控制策略产生大幅度变动,从而提高系统稳定性。除此以外,为了完全覆盖状态和动作空间,使用函数逼近器来维持值函数和控制策略,鉴于极限学习机ELM良好的在线学习能力和泛化特性,AUV的状态和动作空间都是连续的,而控制策略和值函数多为非线性函数,我们将其作为控制策略和值函数的函数逼近器。
本发明的优点还在于:
(1)本发明将研究利用人的经验知识加速AUV自主学习能力。不同于国内外多数研究采用传统的强化学习方法设计AUV控制系统,本发明提出了采用新提出的交互强化学习方法加速学习过程,不需要预定义奖赏函数,而是通过训练者对AUV行为动作进行评估来提供奖赏进行学习,在以一种自然的方式充分利用训练者的经验知识更好地指导学习的同时,避免了传统强化学习方法繁琐的调试和不必要的试错,利用线下训练获得的策略作为AUV在实际环境中运行的初始控制策略,避免AUV在线自主学习时不必要的错误和损失。
(2)本发明将研究AUV在线自主学习能力。不同于传统的AUV控制系统需要精确的数学模型或是解决系统耦合性的能力较差,一旦环境有所变化,需要重新线下调整参数,本发明提出了采用强化学习、极限学习机等在线学习方法,在离线训练获得的初始控制策略的基础上继续学习,改进控制策略,以期通过在线参数调整实时地对不可预测的环境变化作出反应,即使在没有精确的数学模型或耦合性较高的系统中,也可以获得良好的控制效果。
(3)不同于传统的强化学习方法只从预定义的环境奖赏信号中进行学习,本发明提出将人的奖赏与预定义的环境奖赏通过离线与在线的方式结合,充分利用训练者的经验知识,达到既能加速AUV自主学习,又可以使AUV最终获得优于从任何一种奖赏信号单独学习的目的。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (3)
1.交互强化学习方法在水下机器人中的应用,其特征在于:
首先对AUV进行仿真建模,在仿真环境中AUV利用训练者的经验知识通过交互强化学习方法提取所有有用的信息,并初步学习控制策略,一旦训练者认定AUV获得足够的知识并建立了一个安全的控制策略,用仿真学习得到的初始控制策略转移到AUV,在真实环境中在线学习,采用AUV在线自主学习控制技术,继续改进控制策略,作为AUV在真实环境中运行的控制策略。
2.按照权利要求1所述交互强化学习方法在水下机器人中的应用,其特征在于:
所述交互强化学习方法首先探测在仿真环境中所处的状态,根据当前的控制策略选择并执行一个动作,训练者观察控制器在当前状态下所选择的动作,并根据自己的经验知识评估其质量,控制器以此评估信号作为奖赏信号更新控制策略,直到训练者认定控制器的策略足够安全为止,最后将学习到的控制策略移植到AUV,作为AUV在真实环境中在线学习的初始控制策略。
3.按照权利要求1所述交互强化学习方法在水下机器人中的应用,其特征在于:
所述AUV在线自主学习控制技术是移植离线控制策略到AUV,AUV探测当前状态,控制器选择并执行动作,AUV探测数据并判断状态,AUV接收预定义奖赏信号,更新控制策略,判断是否最优控制策略,否则返回AUV探测当前状态,是则结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811200110.7A CN109491240A (zh) | 2018-10-16 | 2018-10-16 | 交互强化学习方法在水下机器人中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811200110.7A CN109491240A (zh) | 2018-10-16 | 2018-10-16 | 交互强化学习方法在水下机器人中的应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109491240A true CN109491240A (zh) | 2019-03-19 |
Family
ID=65690392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811200110.7A Pending CN109491240A (zh) | 2018-10-16 | 2018-10-16 | 交互强化学习方法在水下机器人中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109491240A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638646A (zh) * | 2020-05-29 | 2020-09-08 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
CN113568305A (zh) * | 2021-06-10 | 2021-10-29 | 贵州恰到科技有限公司 | 一种深度强化学习模型机器人的控制方法 |
CN114761182A (zh) * | 2019-09-30 | 2022-07-15 | 西门子股份公司 | 机器人控制系统和用于训练所述机器人控制系统的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104020770A (zh) * | 2014-06-13 | 2014-09-03 | 哈尔滨工程大学 | 基于多项式的uuv空间轨迹规划方法 |
CN108406767A (zh) * | 2018-02-13 | 2018-08-17 | 华南理工大学 | 面向人机协作的机器人自主学习方法 |
-
2018
- 2018-10-16 CN CN201811200110.7A patent/CN109491240A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104020770A (zh) * | 2014-06-13 | 2014-09-03 | 哈尔滨工程大学 | 基于多项式的uuv空间轨迹规划方法 |
CN108406767A (zh) * | 2018-02-13 | 2018-08-17 | 华南理工大学 | 面向人机协作的机器人自主学习方法 |
Non-Patent Citations (2)
Title |
---|
刘芳,苏剑波,席裕庚: "基于人机交互的强化学习与实验研究", 《模式识别与人工智能》 * |
曹江丽: "水下机器人路径规划问题的关键技术研究", 《中国博士学位论文全文数据库·信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114761182A (zh) * | 2019-09-30 | 2022-07-15 | 西门子股份公司 | 机器人控制系统和用于训练所述机器人控制系统的方法 |
CN114761182B (zh) * | 2019-09-30 | 2024-04-12 | 西门子股份公司 | 机器人控制系统和用于训练所述机器人控制系统的方法 |
CN111638646A (zh) * | 2020-05-29 | 2020-09-08 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
CN111638646B (zh) * | 2020-05-29 | 2024-05-28 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
CN113568305A (zh) * | 2021-06-10 | 2021-10-29 | 贵州恰到科技有限公司 | 一种深度强化学习模型机器人的控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109491240A (zh) | 交互强化学习方法在水下机器人中的应用 | |
Dimeas et al. | Reinforcement learning of variable admittance control for human-robot co-manipulation | |
Griffith et al. | Policy shaping: Integrating human feedback with reinforcement learning | |
CN106527129B (zh) | 一种并联机器人间接自适应模糊控制参数的确定方法 | |
GB2601946A (en) | Training strategy search using reinforcement learning | |
CN108820157A (zh) | 一种基于强化学习的船舶智能避碰方法 | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN110000795A (zh) | 一种视觉伺服控制的方法、系统及设备 | |
CN110134165A (zh) | 一种用于环境监测与控制的强化学习方法及系统 | |
CN108255060A (zh) | 基于极限学习机的船舶动力定位自抗扰控制方法 | |
CN109858574A (zh) | 面向人机协同工作的智能体的自主学习方法和系统 | |
CN107807522A (zh) | 水下机器人轨迹跟踪反步控制方法 | |
CN109605377A (zh) | 一种基于强化学习的机器人关节运动控制方法及系统 | |
Jin et al. | Robot eye-hand coordination learning by watching human demonstrations: a task function approximation approach | |
Wang et al. | A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning | |
Chen et al. | Nonlinear feedback control based on ANFIS | |
CN109765906A (zh) | 一种基于复合正交神经网络预测控制的智能船舶循迹方法 | |
Alarcon et al. | Learning-based Image Analytics in User-AI Agent Interactions for Cyber-enabled Manufacturing | |
Jaeger | Reservoir self-control for achieving invariance against slow input distortions | |
Matsumura et al. | Incremental learning for SIRMs fuzzy systems by Adam method | |
CN116475651A (zh) | 用于焊接检修的边缘智能控制方法及智能焊接设备 | |
US20230133628A1 (en) | Brain-inspired cognitive learning method | |
CN108181900B (zh) | 一种基于增强学习智能算法的航海船舶运动控制方法 | |
Weilong et al. | A bionic simultaneous location and mapping with closed-loop correction based on dynamic recognition threshold | |
CN118466623B (zh) | 一种基于人工智能的温控系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |