CN112965487B - 基于策略迭代的移动机器人轨迹跟踪控制方法 - Google Patents
基于策略迭代的移动机器人轨迹跟踪控制方法 Download PDFInfo
- Publication number
- CN112965487B CN112965487B CN202110161247.1A CN202110161247A CN112965487B CN 112965487 B CN112965487 B CN 112965487B CN 202110161247 A CN202110161247 A CN 202110161247A CN 112965487 B CN112965487 B CN 112965487B
- Authority
- CN
- China
- Prior art keywords
- strategy
- function
- equation
- neural network
- mobile robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000011217 control strategy Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 241000270666 Testudines Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于策略迭代的移动机器人轨迹跟踪控制方法,对于已知的移动机器人系统,先搭建两个神经网路。分别为actor神经网络,和critic神经网络,其中actor神经网络用于系统控制策略的评估与改进,critic神经网络主要用来计算当前控制策略下的价值函数,用此价值函数评估当前策略。包括以下步骤:1)建立移动机器人的运动学模型;2)设计Actor神经网络;3)设计Critic神经网络;4)设计Actor/Critic结构的在线算法。本发明基于数据驱动的控制算法,利用价值函数对其策略函数进行评估,保证学习的过程同时兼顾价值函数和策略函数,可以较好实现对移动机器人的轨迹跟踪。
Description
技术领域
本发明属于强化学习领域,具体提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法,是一种智能控制方法。
背景技术
在现代科技飞速发展的今天,移动机器人以其小巧灵活,操作简单,灵活多样等特点,始终处于科技的前沿,一直引领着高新技术的方向。随着人工智能和计算机大数据时代的到来,人类总是期望移动机器人能够具有更加强大的自主化能力,以代替我们在更多的邻域完成更加复杂危险的操作任务,为实现这一目标,其核心技术就是需要移动机器人具有优良的运动规划能力,使机器人在无人干扰的条件下也可以在未知的环境中有目的,准确高效的工作。
目前,被广泛应用的运动规划算法主要是基于模型的A*算法、D*算法等。但基于模型的算法缺点是系统建模比较困难、当模型不精确时,可能起反作用。
发明内容
基于上述问题,本发明提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法,具体地说,先搭建一个Actor神经网络,通过策略迭代实现控制策略的更新;接着设计一个Critic神经网络,通过策略迭代得到当前控制策略下的最优价值函数,用所得到的最优价值函数评估当前控制策略,依次进行多次循环最后得到最优控制策略,实验结果验证了该方法的有效性。
本发明为解决上述技术问题提供了如下技术方案:
一种基于策略迭代的移动机器人轨迹跟踪控制方法,包括以下步骤:
步骤1)建立移动机器人的运动学模型
步骤2),设计Actor神经网络,过程如下:
2.1)考虑输入动力系统中的非线性时不变仿射,如式(2)所示:
设系统动力学f(x),g(x)已知,对于任何容许的输入u,定义其代价函数,如式(3)所示:
那么公式(3)的无穷小版本就是所谓的非线性Lyapunov方程,如式(4)所示:
式中,▽VX U表示值函数Vu相对于x的偏导数。公式(4)是一个非线性系统的Lyapunov方程,在给定控制器u(x)∈Ψ(Ω)的情况下,可以求解与其相关的值函数Vu(x);设定u(x)是允许的控制策略,如果Vu(x)满足(4),则Vu(x)是具有控制策略u(x)的系统(2)的Lyapunov函数;
最优控制问题表述为:给定连续时间系统(2),利用控制策略和代价泛函(3),找到一个可容许的控制策略,使得与系统(2)相关的代价指数(3)最小,则最优成本函数V*(x)定义为
假设(5)右边的最小值存在且唯一,则给定问题的最优控制函数为
2.2)策略评估
对于已求出的ui(x),通过公式(7)求出当前策略下的价值函数Vu(i)x(t),用Vu(i)x(t)对当前的策略进行评估;
2.3)策略改进
使用公式(8)对策略进行改进
但为了保证策略迭代算法的收敛性,需要给系统一个初始容许策略u(0)∈Ψ(Ω);
步骤3)设计Critic神经网络,过程如下:
3.1)价值函数的神经网络逼近
为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的价值函数的近似值,由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选,因此,对于x∈Ω,成本函数Vu(i)(x)由公式(9)表示:
公式(9)看作是一个隐藏层上有L个神经元的神经网络,激活函数φj(x)∈C1(Ω),φj(0)=0,是激活函数的向量,表示输出层的权重,其值求解如式(10)所示,其中 是权重向量。输出层神经元具有线性激活函数。隐藏层的权值都等于1,在训练过程中不会改变;
步骤4)Actor/Critic结构的在线算法,过程如下:
先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,实时获得由(10)给出的权值W;当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止;当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次决定开始调整Actor参数。
本发明的有益效果为:基于数据驱动的控制算法,该算法利用价值函数对其策略函数进行评估,保证学习的过程同时兼顾价值函数和策略函数,可以较好实现对移动机器人的轨迹跟踪。实验结果验证了该方法的有效性。
附图说明
图1是移动机器人流程图。
图2是移动机器人权值变化图。
图3是移动机器人价值函数对比图。
图4是移动机器人轨迹跟踪控制效果图。
具体实施方式
以下结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
参照图1~图4,一种基于策略迭代的移动机器人轨迹跟踪控制方法,有别于基于价值的方法,基于策略的强化学习方法直接尝试优化策略函数实现跟踪。对于已知的移动机器人系统,先搭建两个神经网路。分别为actor神经网络,和critic神经网络,其中actor神经网络用于系统控制策略的评估与改进,critic神经网络主要用来计算当前控制策略下的价值函数,用此价值函数评估当前策略。包括以下步骤:
1)建立移动机器人的运动学模型;
2)设计Actor神经网络;
3)设计Critic神经网络;
4)Actor/Critic结构的在线算法。
进一步,所述步骤1),实验室移动机器人的硬件平台采用了turtlebot2机器人。由两个前轮引导器人的运动。通过Holzer编码器来计算机器人的前进速度。此外,利用数码相机对移动机器人进行定位,将位置信息发送给上位机进行图像处理,同时生成控制命令并通过无线通信传回移动机器人。
由(1)已知移动机器人系统模型
初始化wa=0.7,wr=1.7,va=0.2,vr=0.1;
系统最优控制函数为
进一步,所述步骤3)为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的近似值。由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选。因此,对于x∈Ω,成本函数Vu(i)(x)由公式(10)表示:
进一步,所述步骤4)先初始化控制策略u(0)=[1 0.4 0.4]T,然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,可以实时获得由(10)给出的权值w。给定阈值0.00001,当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止。此外,当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次调整Actor参数。
实验中采用了turtlebot2机器人。机器人的运动由两个前轮引导。还建立了Holzer编码器来计算机器人的前进速度。此外,机器人上方还安装了一台负责定位的数码相机OV7620。数码相机的分辨率为320*240,每秒最多可生成30幅图像。利用数码相机对移动机器人进行定位,将位置信息发送给上位机进行图像处理,同时生成控制命令并通过无线通信传回移动机器人。车载传感器的测量信息通过HC-5蓝牙模块发送到上位机。上位机作为监控系统的数据处理中心,通过串口通信将控制命令发送到移动机器人的驱动端。采样周期为T=0.1s。
从实验结果可以看出,如图三所示,相比较于给定一个固定策略而言,在相同时间内基于策略迭代的设计方法价值函数值更小,控制效果更好。从图四可知,基于策略迭代的移动机器人轨迹跟踪控制器的设计方法对其运动轨迹有着良好控制效果。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (2)
1.一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述方法包括以下步骤:
步骤1)建立移动机器人的运动学模型
其中(x1,x2),x3分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差,va,wa分别表示机器人的线速度和角速度,vr、wr分别为参考位置的线速度和角速度;
步骤2),设计Actor神经网络,过程如下;
2.1)考虑输入动力系统中的非线性时不变仿射,如式(2)所示:
设系统动力学f(x),g(x)已知,对于任何容许的输入u,定义其代价函数,如式(3)所示:
那么公式(3)的无穷小版本为非线性Lyapunov函数,如式(4)所示:
式中,表示值函数Vu相对于x的偏导数,公式(4)是一个非线性系统的Lyapunov函数,在给定控制器u(x)∈Ψ(Ω)的情况下,求解与其相关的代价函数Vu(x);设定u(x)是允许的控制策略,如果Vu(x)满足公式(4),则Vu(x)是具有控制策略u(x)的连续时间系统(2)的Lyapunov函数;
最优控制问题表述为:给定连续时间系统(2),利用控制策略和代价函数(3),找到一个可容许的控制策略,使得与连续时间系统(2)相关的代价函数(3)最小,则最优成本函数V*(x)定义为
假设公式(5)右边的最小值存在且唯一,则给定问题的最优控制函数为
2.2)策略评估
对于已求出的ui(x),通过公式(7)求出当前策略下的代价函数Vu(i)x(t),用Vu(i)x(t)对当前的策略进行评估;
2.3)策略改进
使用公式(8)对策略进行改进
但为了保证策略迭代算法的收敛性,需要给系统一个初始容许策略u(0)∈Ψ(Ω);
步骤3)设计Critic神经网络,过程如下:
3.1)代价函数的神经网络逼近
为了求解公式(7),使用神经网络类型的结构来获得任何x∈Ω的代价函数的近似值,由于普遍逼近性质,神经网络是在紧集上逼近光滑函数的自然候选,因此,对于x∈Ω,代价函数Vu(i)(x)由公式(9)表示:
公式(9)看作是一个隐藏层上有L个神经元的神经网络,激活函数φj(x)∈C1(Ω),φj(0)=0,是激活函数的向量,表示输出层的权重,其值求解如式(10)所示,其中 是权重向量,输出层神经元具有线性激活函数,隐藏层的权值都等于1,在训练过程中不会改变;
步骤4)Actor/Critic结构的在线算法。
2.如权利要求1所述的一种基于策略迭代的移动机器人轨迹跟踪控制方法,其特征在于,所述步骤4)的过程如下:先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后,实时获得由公式(10)给出的权值W;当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时,迭代将停止;当这个误差大于上述阈值时,表明系统动力学发生了变化,Critic将再次决定开始调整Actor参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110161247.1A CN112965487B (zh) | 2021-02-05 | 2021-02-05 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110161247.1A CN112965487B (zh) | 2021-02-05 | 2021-02-05 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112965487A CN112965487A (zh) | 2021-06-15 |
CN112965487B true CN112965487B (zh) | 2022-06-17 |
Family
ID=76274478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110161247.1A Active CN112965487B (zh) | 2021-02-05 | 2021-02-05 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112965487B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113759724B (zh) * | 2021-09-17 | 2023-08-15 | 中国人民解放军国防科技大学 | 基于数据驱动的机器人控制方法、装置和计算机设备 |
CN114527648B (zh) * | 2021-12-30 | 2023-12-05 | 浙江众星志连科技有限责任公司 | 一种复杂皮纳卫星快速机动控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN109240091A (zh) * | 2018-11-13 | 2019-01-18 | 燕山大学 | 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
-
2021
- 2021-02-05 CN CN202110161247.1A patent/CN112965487B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109240091A (zh) * | 2018-11-13 | 2019-01-18 | 燕山大学 | 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112965487A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110514206B (zh) | 一种基于深度学习的无人机飞行路径预测方法 | |
CN106933106B (zh) | 一种基于模糊控制多模型算法的目标跟踪方法 | |
WO2020207219A1 (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN112965487B (zh) | 基于策略迭代的移动机器人轨迹跟踪控制方法 | |
Wen et al. | A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning | |
CN111260026B (zh) | 一种基于元强化学习的导航迁移方法 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
CN113671962B (zh) | 一种无人驾驶铰接式清扫车的横向控制方法 | |
JP7301034B2 (ja) | 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 | |
CN110543727B (zh) | 一种基于改进粒子群算法的全向移动智能轮椅机器人参数辨识方法 | |
WO2019176478A1 (ja) | ロボットの動作制御装置 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
Xu et al. | Learning strategy for continuous robot visual control: A multi-objective perspective | |
Bicer et al. | Sample efficient interactive end-to-end deep learning for self-driving cars with selective multi-class safe dataset aggregation | |
Hwang et al. | A fuzzy CMAC learning approach to image based visual servoing system | |
Luo et al. | Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty | |
Surovik et al. | Learning an expert skill-space for replanning dynamic quadruped locomotion over obstacles | |
Yang et al. | Particle filters in latent space for robust deformable linear object tracking | |
Xie et al. | Learning agile flights through narrow gaps with varying angles using onboard sensing | |
CN115421387B (zh) | 一种基于逆强化学习的可变阻抗控制系统及控制方法 | |
Atoofi et al. | Learning of central pattern generator coordination in robot drawing | |
CN115344047A (zh) | 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法 | |
Lampton et al. | Morphing airfoils with four morphing parameters | |
Hong et al. | Dynamics-aware metric embedding: Metric learning in a latent space for visual planning | |
CN110543919B (zh) | 一种机器人定位控制方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |