CN112965487B - 基于策略迭代的移动机器人轨迹跟踪控制方法 - Google Patents

基于策略迭代的移动机器人轨迹跟踪控制方法 Download PDF

Info

Publication number
CN112965487B
CN112965487B CN202110161247.1A CN202110161247A CN112965487B CN 112965487 B CN112965487 B CN 112965487B CN 202110161247 A CN202110161247 A CN 202110161247A CN 112965487 B CN112965487 B CN 112965487B
Authority
CN
China
Prior art keywords
strategy
function
equation
neural network
mobile robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110161247.1A
Other languages
English (en)
Other versions
CN112965487A (zh
Inventor
朱俊威
张恒
董子源
吴珺
张文安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110161247.1A priority Critical patent/CN112965487B/zh
Publication of CN112965487A publication Critical patent/CN112965487A/zh
Application granted granted Critical
Publication of CN112965487B publication Critical patent/CN112965487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于策略迭代的移动机器人轨迹跟踪控制方法,对于已知的移动机器人系统,先搭建两个神经网路。分别为actor神经网络,和critic神经网络,其中actor神经网络用于系统控制策略的评估与改进,critic神经网络主要用来计算当前控制策略下的价值函数,用此价值函数评估当前策略。包括以下步骤:1)建立移动机器人的运动学模型;2)设计Actor神经网络;3)设计Critic神经网络;4)设计Actor/Critic结构的在线算法。本发明基于数据驱动的控制算法,利用价值函数对其策略函数进行评估,保证学习的过程同时兼顾价值函数和策略函数,可以较好实现对移动机器人的轨迹跟踪。

Description

基于策略迭代的移动机器人轨迹跟踪控制方法
技术领域
本发明属于强化学习领域,具体提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法,是一种智能控制方法。
背景技术
在现代科技飞速发展的今天,移动机器人以其小巧灵活,操作简单,灵活多样等特点,始终处于科技的前沿,一直引领着高新技术的方向。随着人工智能和计算机大数据时代的到来,人类总是期望移动机器人能够具有更加强大的自主化能力,以代替我们在更多的邻域完成更加复杂危险的操作任务,为实现这一目标,其核心技术就是需要移动机器人具有优良的运动规划能力,使机器人在无人干扰的条件下也可以在未知的环境中有目的,准确高效的工作。
目前,被广泛应用的运动规划算法主要是基于模型的A*算法、D*算法等。但基于模型的算法缺点是系统建模比较困难、当模型不精确时,可能起反作用。
发明内容
基于上述问题,本发明提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法,具体地说,先搭建一个Actor神经网络,通过策略迭代实现控制策略的更新;接着设计一个Critic神经网络,通过策略迭代得到当前控制策略下的最优价值函数,用所得到的最优价值函数评估当前控制策略,依次进行多次循环最后得到最优控制策略,实验结果验证了该方法的有效性。
本发明为解决上述技术问题提供了如下技术方案:
一种基于策略迭代的移动机器人轨迹跟踪控制方法,包括以下步骤:
步骤1)建立移动机器人的运动学模型
Figure BDA0002936783960000011
Figure BDA0002936783960000021
u=[1 va wa]T其中(x1,x2),x3分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差,va,wa分别表示机器人的线速度和角速度,vr、wr分别为参考位置的线速度和角速度;
步骤2),设计Actor神经网络,过程如下:
2.1)考虑输入动力系统中的非线性时不变仿射,如式(2)所示:
Figure BDA0002936783960000022
设系统动力学f(x),g(x)已知,对于任何容许的输入u,定义其代价函数,如式(3)所示:
Figure BDA0002936783960000023
那么公式(3)的无穷小版本就是所谓的非线性Lyapunov方程,如式(4)所示:
Figure BDA0002936783960000024
式中,▽VX U表示值函数Vu相对于x的偏导数。公式(4)是一个非线性系统的Lyapunov方程,在给定控制器u(x)∈Ψ(Ω)的情况下,可以求解与其相关的值函数Vu(x);设定u(x)是允许的控制策略,如果Vu(x)满足(4),则Vu(x)是具有控制策略u(x)的系统(2)的Lyapunov函数;
最优控制问题表述为:给定连续时间系统(2),利用控制策略和代价泛函(3),找到一个可容许的控制策略,使得与系统(2)相关的代价指数(3)最小,则最优成本函数V*(x)定义为
Figure BDA0002936783960000025
假设(5)右边的最小值存在且唯一,则给定问题的最优控制函数为
Figure BDA0002936783960000026
2.2)策略评估
对于已求出的ui(x),通过公式(7)求出当前策略下的价值函数Vu(i)x(t),用Vu(i)x(t)对当前的策略进行评估;
Figure BDA0002936783960000031
2.3)策略改进
使用公式(8)对策略进行改进
Figure BDA0002936783960000032
但为了保证策略迭代算法的收敛性,需要给系统一个初始容许策略u(0)∈Ψ(Ω);
步骤3)设计Critic神经网络,过程如下:
3.1)价值函数的神经网络逼近
为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的价值函数的近似值,由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选,因此,对于x∈Ω,成本函数Vu(i)(x)由公式(9)表示:
Figure BDA0002936783960000033
Figure BDA0002936783960000034
公式(9)看作是一个隐藏层上有L个神经元的神经网络,激活函数φj(x)∈C1(Ω),φj(0)=0,
Figure BDA0002936783960000038
是激活函数的向量,
Figure BDA0002936783960000035
表示输出层的权重,其值求解如式(10)所示,其中
Figure BDA0002936783960000036
Figure BDA0002936783960000037
是权重向量。输出层神经元具有线性激活函数。隐藏层的权值都等于1,在训练过程中不会改变;
步骤4)Actor/Critic结构的在线算法,过程如下:
先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,实时获得由(10)给出的权值W;当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止;当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次决定开始调整Actor参数。
本发明的有益效果为:基于数据驱动的控制算法,该算法利用价值函数对其策略函数进行评估,保证学习的过程同时兼顾价值函数和策略函数,可以较好实现对移动机器人的轨迹跟踪。实验结果验证了该方法的有效性。
附图说明
图1是移动机器人流程图。
图2是移动机器人权值变化图。
图3是移动机器人价值函数对比图。
图4是移动机器人轨迹跟踪控制效果图。
具体实施方式
以下结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
参照图1~图4,一种基于策略迭代的移动机器人轨迹跟踪控制方法,有别于基于价值的方法,基于策略的强化学习方法直接尝试优化策略函数实现跟踪。对于已知的移动机器人系统,先搭建两个神经网路。分别为actor神经网络,和critic神经网络,其中actor神经网络用于系统控制策略的评估与改进,critic神经网络主要用来计算当前控制策略下的价值函数,用此价值函数评估当前策略。包括以下步骤:
1)建立移动机器人的运动学模型;
2)设计Actor神经网络;
3)设计Critic神经网络;
4)Actor/Critic结构的在线算法。
进一步,所述步骤1),实验室移动机器人的硬件平台采用了turtlebot2机器人。由两个前轮引导器人的运动。通过Holzer编码器来计算机器人的前进速度。此外,利用数码相机对移动机器人进行定位,将位置信息发送给上位机进行图像处理,同时生成控制命令并通过无线通信传回移动机器人。
由(1)已知移动机器人系统模型
Figure BDA0002936783960000051
初始化wa=0.7,wr=1.7,va=0.2,vr=0.1;
因此得到
Figure BDA0002936783960000052
其中
Figure BDA0002936783960000053
进一步,所述步骤2)考虑由方程给出的非线性系统
Figure BDA0002936783960000054
对于已求出的ui(x),通过公式(7)可以求出当前策略下的价值函数Vu(i)x(t),用Vu(i)x(t)对当前的策略进行评估。
Figure BDA0002936783960000055
系统最优控制函数为
Figure BDA0002936783960000056
进一步,所述步骤3)为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的近似值。由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选。因此,对于x∈Ω,成本函数Vu(i)(x)由公式(10)表示:
Figure BDA0002936783960000057
其中L=3,激活函数
Figure BDA0002936783960000058
是权重向量。
通过式(10)求出
Figure BDA0002936783960000061
因此得到最优价值函数
Figure BDA0002936783960000062
进一步,所述步骤4)先初始化控制策略u(0)=[1 0.4 0.4]T,然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,可以实时获得由(10)给出的权值w。给定阈值0.00001,当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止。此外,当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次调整Actor参数。
实验中采用了turtlebot2机器人。机器人的运动由两个前轮引导。还建立了Holzer编码器来计算机器人的前进速度。此外,机器人上方还安装了一台负责定位的数码相机OV7620。数码相机的分辨率为320*240,每秒最多可生成30幅图像。利用数码相机对移动机器人进行定位,将位置信息发送给上位机进行图像处理,同时生成控制命令并通过无线通信传回移动机器人。车载传感器的测量信息通过HC-5蓝牙模块发送到上位机。上位机作为监控系统的数据处理中心,通过串口通信将控制命令发送到移动机器人的驱动端。采样周期为T=0.1s。
从实验结果可以看出,如图三所示,相比较于给定一个固定策略而言,在相同时间内基于策略迭代的设计方法价值函数值更小,控制效果更好。从图四可知,基于策略迭代的移动机器人轨迹跟踪控制器的设计方法对其运动轨迹有着良好控制效果。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (2)

1.一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
步骤1)建立移动机器人的运动学模型
Figure FDA0003549444710000011
Figure FDA0003549444710000012
u=[1 va wa]T
其中(x1,x2),x3分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差,va,wa分别表示机器人的线速度和角速度,vr、wr分别为参考位置的线速度和角速度;
步骤2),设计Actor神经网络,过程如下;
2.1)考虑输入动力系统中的非线性时不变仿射,如式(2)所示:
Figure FDA0003549444710000013
设系统动力学f(x),g(x)已知,对于任何容许的输入u,定义其代价函数,如式(3)所示:
Figure FDA0003549444710000014
那么公式(3)的无穷小版本为非线性Lyapunov函数,如式(4)所示:
Figure FDA0003549444710000015
式中,
Figure FDA0003549444710000016
表示值函数Vu相对于x的偏导数,公式(4)是一个非线性系统的Lyapunov函数,在给定控制器u(x)∈Ψ(Ω)的情况下,求解与其相关的代价函数Vu(x);设定u(x)是允许的控制策略,如果Vu(x)满足公式(4),则Vu(x)是具有控制策略u(x)的连续时间系统(2)的Lyapunov函数;
最优控制问题表述为:给定连续时间系统(2),利用控制策略和代价函数(3),找到一个可容许的控制策略,使得与连续时间系统(2)相关的代价函数(3)最小,则最优成本函数V*(x)定义为
Figure FDA0003549444710000021
假设公式(5)右边的最小值存在且唯一,则给定问题的最优控制函数为
Figure FDA0003549444710000022
2.2)策略评估
对于已求出的ui(x),通过公式(7)求出当前策略下的代价函数Vu(i)x(t),用Vu(i)x(t)对当前的策略进行评估;
Figure FDA0003549444710000023
2.3)策略改进
使用公式(8)对策略进行改进
Figure FDA0003549444710000024
但为了保证策略迭代算法的收敛性,需要给系统一个初始容许策略u(0)∈Ψ(Ω);
步骤3)设计Critic神经网络,过程如下:
3.1)代价函数的神经网络逼近
为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的代价函数的近似值,由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选,因此,对于x∈Ω,代价函数Vu(i)(x)由公式(9)表示:
Figure FDA0003549444710000025
Figure FDA0003549444710000026
公式(9)看作是一个隐藏层上有L个神经元的神经网络,激活函数φj(x)∈C1(Ω),φj(0)=0,
Figure FDA0003549444710000027
是激活函数的向量,
Figure FDA0003549444710000028
表示输出层的权重,其值求解如式(10)所示,其中
Figure FDA0003549444710000029
Figure FDA00035494447100000210
是权重向量,输出层神经元具有线性激活函数,隐藏层的权值都等于1,在训练过程中不会改变;
步骤4)Actor/Critic结构的在线算法。
2.如权利要求1所述的一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述步骤4)的过程如下:先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,实时获得由公式(10)给出的权值W;当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止;当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次决定开始调整Actor参数。
CN202110161247.1A 2021-02-05 2021-02-05 基于策略迭代的移动机器人轨迹跟踪控制方法 Active CN112965487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110161247.1A CN112965487B (zh) 2021-02-05 2021-02-05 基于策略迭代的移动机器人轨迹跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110161247.1A CN112965487B (zh) 2021-02-05 2021-02-05 基于策略迭代的移动机器人轨迹跟踪控制方法

Publications (2)

Publication Number Publication Date
CN112965487A CN112965487A (zh) 2021-06-15
CN112965487B true CN112965487B (zh) 2022-06-17

Family

ID=76274478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110161247.1A Active CN112965487B (zh) 2021-02-05 2021-02-05 基于策略迭代的移动机器人轨迹跟踪控制方法

Country Status (1)

Country Link
CN (1) CN112965487B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113759724B (zh) * 2021-09-17 2023-08-15 中国人民解放军国防科技大学 基于数据驱动的机器人控制方法、装置和计算机设备
CN114527648B (zh) * 2021-12-30 2023-12-05 浙江众星志连科技有限责任公司 一种复杂皮纳卫星快速机动控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110018687A (zh) * 2019-04-09 2019-07-16 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN111880412A (zh) * 2020-08-12 2020-11-03 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN110018687A (zh) * 2019-04-09 2019-07-16 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN111880412A (zh) * 2020-08-12 2020-11-03 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法

Also Published As

Publication number Publication date
CN112965487A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110514206B (zh) 一种基于深度学习的无人机飞行路径预测方法
CN106933106B (zh) 一种基于模糊控制多模型算法的目标跟踪方法
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN112965487B (zh) 基于策略迭代的移动机器人轨迹跟踪控制方法
Wen et al. A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN113671962B (zh) 一种无人驾驶铰接式清扫车的横向控制方法
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
CN110543727B (zh) 一种基于改进粒子群算法的全向移动智能轮椅机器人参数辨识方法
WO2019176478A1 (ja) ロボットの動作制御装置
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
Xu et al. Learning strategy for continuous robot visual control: A multi-objective perspective
Bicer et al. Sample efficient interactive end-to-end deep learning for self-driving cars with selective multi-class safe dataset aggregation
Hwang et al. A fuzzy CMAC learning approach to image based visual servoing system
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Surovik et al. Learning an expert skill-space for replanning dynamic quadruped locomotion over obstacles
Yang et al. Particle filters in latent space for robust deformable linear object tracking
Xie et al. Learning agile flights through narrow gaps with varying angles using onboard sensing
CN115421387B (zh) 一种基于逆强化学习的可变阻抗控制系统及控制方法
Atoofi et al. Learning of central pattern generator coordination in robot drawing
CN115344047A (zh) 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法
Lampton et al. Morphing airfoils with four morphing parameters
Hong et al. Dynamics-aware metric embedding: Metric learning in a latent space for visual planning
CN110543919B (zh) 一种机器人定位控制方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant