CN114859899A - 移动机器人导航避障的演员-评论家稳定性强化学习方法 - Google Patents
移动机器人导航避障的演员-评论家稳定性强化学习方法 Download PDFInfo
- Publication number
- CN114859899A CN114859899A CN202210403450.XA CN202210403450A CN114859899A CN 114859899 A CN114859899 A CN 114859899A CN 202210403450 A CN202210403450 A CN 202210403450A CN 114859899 A CN114859899 A CN 114859899A
- Authority
- CN
- China
- Prior art keywords
- network
- mobile robot
- obstacle avoidance
- strategy
- navigation obstacle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150036841 minJ gene Proteins 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Electromagnetism (AREA)
- Optics & Photonics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了移动机器人导航避障的演员‑评论家稳定性强化学习方法,属于移动机器人自主导航及规避障碍物技术领域,包括以下步骤:步骤一:网络模型构造;步骤二:网络模型参数初始化;步骤三:训练价值评估网络与李雅普诺夫函数网络;步骤四:训练最小李雅普诺夫值网络;步骤五:训练导航避障策略网络;步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度;本发明提高策略训练收敛速度以及在导航避障过程中的安全性。
Description
技术领域
本发明属于移动机器人自主导航及规避障碍物技术领域,具体涉及移动机器人导航避障的演员-评论家稳定性强化学习方法。
背景技术
移动机器人导航避障中强化学习算法的稳定性保证,是指在训练策略中和在实际策略测试中,移动机器人在给定一个初始的安全区域中,移动机器人在整个任务过程中不会进入不安全的区域,或者移动机器人初始时刻在一个不安全的区域,在完成任务过程中,移动机器人能够根据自身状态调整,使得其能够恢复到安全区域中,这种恢复保持性能称之为移动机器人导航避障的稳定性保证。
近年来,国内外机器人相关企业研究单位在利用强化学习训练自主导航避障策略中,通过不同的理论来保证移动机器人在导航避障过程中的稳定性,以提高机器人的安全性。
强化学习应用于移动机器人导航避障的稳定性保证是强化学习应用到实际的关键之一,当前强化学习技术应用于实际物理机器人的问题主要有训练模型速度较慢,及训练的模型对训练场景之外的环境适应性较差,不能保证机器人的安全性,这两个问题制约了强化学习在真实世界中的落地产业化。现有的保证强化学习在移动机器人导航避障中安全的方法,通过在训练阶段对机器人状态增加状态约束,使得机器人尽可能不违反安全约束,然而这种方法需要多传感器检测所约束的各个状态,并且计算量较大,算法体系复杂,不适用于当前计算资源受限,传感器较为单一的移动机器人系统。
另外一种保证强化学习在移动机器人导航避障中安全的方法,通过引入控制理论中的渐近稳定性来保证强化学习算法的闭环稳定性,安全区域定义为状态空间的一个子集,使得任何在这个集合中开始的状态轨迹都会一直在这个集合中,并最终收敛到一个目标状态,以实现整个导航避障过程的安全,而该方法在基于模型的强化学习中取得了一些成果,但是在不基于模型的强化学习算法中应用较少,这些不基于模型的强化学习算法中,在训练策略过程中表现出收敛速度较慢,并在障碍物间距较近的移动机器人导航避障中表现较差。
发明内容
为解决上述背景技术中提出的问题。本发明提供了移动机器人导航避障的演员-评论家稳定性强化学习方法,具有结合控制理论中的李雅普诺夫稳定性概念,在不基于模型的强化学习中,训练移动机器人导航避障策略,并且满足李雅普诺夫稳定性条件,从而提高策略训练收敛速度以及在导航避障过程中安全性的特点。
为实现上述目的,本发明提供如下技术方案:移动机器人导航避障的演员-评论家稳定性强化学习方法,包括以下步骤:
步骤一:网络模型构造
利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络,价值评估网络和李雅普诺夫函数网络;
步骤二:网络模型参数初始化
随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,初始化策略网络训练过程中涉及到的超参数;
步骤三:训练价值评估网络与李雅普诺夫函数网络
构造价值评估网络与李雅普诺夫函数网络的优化目标函数,从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
训练最小李雅普诺夫值网络,获取李雅普诺夫函数网络取得最小值的策略πm;
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,保证满足李雅普诺夫函数下降条件;
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
本发明中进一步的,所述步骤一中,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布。
本发明中进一步的,所述步骤一中,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q。
本发明中进一步的,所述步骤一中,利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f。
本发明中进一步的,所述步骤一中,为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf。
本发明中进一步的,所述步骤三中,价值评估网络的优化目标函数构造的具体步骤为:
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
本发明中进一步的,所述步骤三中,李雅普诺夫函数网络的优化目标函数构造的具体步骤为:
在本发明中,李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπ(s,a),并有:
其中,c为在状态s下采取动作a获得的惩罚,
利用递归关系,可以得到公式1-4的贝尔曼方程:
Lπ(s,a)=Es'~p(·|s,a)[c+γEa'~π(·|s')[Lπ(s',a')]] (1-5)
由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为:
本发明中进一步的,所述步骤四的具体步骤为:
J(θm)=L(s,a) (1-7)
通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为:
L*(s,a)=L(s,πm(·|s)) (1-8)。
本发明中进一步的,所述步骤五的具体步骤为:
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:
minJ(θ)
使得Es~μ,a~π[Es'~p,a'~πL(s',a')-L*(s,a)]≤-α3Es~μ,a~πc(s,a),
其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到本发明算法的最优目标函数为:
J(θ)=-A(s,a)logπ(s,a)+λ(L(s′,a′)-L*(s,a)+α3c) (1-9)
与现有技术相比,本发明的有益效果是:
本发明减少移动机器人导航避障中传感器的数量,有效减轻移动机器人算法结构,降低计算复杂度,同时通过给出闭环系统稳定性条件,能够有效的提高训练策略效率,提高移动机器人导航避障安全性。
附图说明
图1为本发明的概要流程图;
图2为本发明稳定性条件中李雅普诺夫函数值下降图;
图3为本发明具体实现算法伪代码图;
图4为本发明策略模型神经网络结构图;
图5为本发明价值评估与李雅普诺夫函数神经网络结构图;
图6为本发明与其他方法的收敛速度效果对比图;
图7为本发明与其他方法的安全效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-7,本发明提供以下技术方案:移动机器人导航避障的演员-评论家稳定性强化学习方法,包括以下步骤:
步骤一:网络模型构造
如附图4所示,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布;
如附图5所示,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q;
如附图5所示,利用神经网络技术构造李雅普诺夫函数网络,步骤与构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f;
为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf;
由附图4和附图5可知,本发明只需要利用激光雷达深度信息、定位信息和机器人速度信息,其中,定位信息和速度信息属于低维状态信息,所需使用传感器仅有三种,有效的减少因约束其状态而使用更多的传感器;
步骤二:网络模型参数初始化
初始化附图3算法中的存储空间D,包括存储空间的存储数据的位数及大小,随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,及最小李雅普诺夫函数策略网络参数,初始化策略网络训练过程中涉及到的拉格朗日乘子λ和超参数α3;
步骤三:训练价值评估网络与李雅普诺夫函数网络
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
在本发明中,李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπ(s,a),并有:
其中,c为在状态s下采取动作a获得的惩罚,
利用递归关系,可以得到公式1-4的贝尔曼方程:
Lπ(s,a)=Es'~p(·|s,a)[c+γEa'~π(·|s')[Lπ(s',a')]] (1-5)
由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为:
从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
J(θm)=L(s,a) (1-7)
通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为:
L*(s,a)=L(s,πm(·|s)) (1-8);
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:
minJ(θ)
使得Es~μ,a~π[Es'~p,a'~πL(s',a')-L*(s,a)]≤-α3Es~μ,a~πc(s,a),
其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到本发明算法的最优目标函数为:
J(θ)=-A(s,a)logπ(s,a)+λ(L(s′,a′)-L*(s,a)+α3c) (1-9)
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
本发明在执行时,与演员-评论家(AC)算法和其它基于稳定分析的安全强化学习方法(SLL)在移动机器人导航避障中相比较,由附图6可知,本发明取得的平均回报比AC和SLL算法高,而且到达稳定回报时需要的训练步数更少,验证了本发明训练移动机器人导航避障策略具有收敛速度较快的特点,由附图7可知,本发明取得的安全花销比AC和SLL更低,即本发明保证了算法的稳定性,使得其具有更高的安全性,验证了本发明能够有效提高安全性。
值得注意的是,附图6和附图7中的步数大于600×25后,各个网络开始训练学习,在此之前,均为随机策略,以获取各网络训练所需样本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于,包括以下步骤:
步骤一:网络模型构造
利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络,价值评估网络和李雅普诺夫函数网络;
步骤二:网络模型参数初始化
随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,初始化策略网络训练过程中涉及到的超参数;
步骤三:训练价值评估网络与李雅普诺夫函数网络
构造价值评估网络与李雅普诺夫函数网络的优化目标函数,从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
训练最小李雅普诺夫值网络,获取李雅普诺夫函数网络取得最小值的策略πm;
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,保证满足李雅普诺夫函数下降条件;
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
2.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布。
3.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q。
4.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f。
5.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf。
6.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤三中,价值评估网络的优化目标函数构造的具体步骤为:
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210403450.XA CN114859899B (zh) | 2022-04-18 | 移动机器人导航避障的演员-评论家稳定性强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210403450.XA CN114859899B (zh) | 2022-04-18 | 移动机器人导航避障的演员-评论家稳定性强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114859899A true CN114859899A (zh) | 2022-08-05 |
CN114859899B CN114859899B (zh) | 2024-05-31 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115616922A (zh) * | 2022-12-19 | 2023-01-17 | 安徽大学 | 一种异构移动机器人集群的时间覆盖控制方法 |
CN117111640A (zh) * | 2023-10-24 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117472066A (zh) * | 2023-12-27 | 2024-01-30 | 成都流体动力创新中心 | 一种航向角速度局部最优的避障控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN113010963A (zh) * | 2021-03-04 | 2021-06-22 | 山东大学 | 基于深度强化学习的变质量水下航行器避障方法及系统 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113189867A (zh) * | 2021-03-24 | 2021-07-30 | 大连海事大学 | 一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法 |
CN113534668A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
US20210333793A1 (en) * | 2020-04-24 | 2021-10-28 | Harbin Institute Of Technology | Indoor Monocular Navigation Method Based on Cross-Sensor Transfer Learning and System Thereof |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
US20210333793A1 (en) * | 2020-04-24 | 2021-10-28 | Harbin Institute Of Technology | Indoor Monocular Navigation Method Based on Cross-Sensor Transfer Learning and System Thereof |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN113010963A (zh) * | 2021-03-04 | 2021-06-22 | 山东大学 | 基于深度强化学习的变质量水下航行器避障方法及系统 |
CN113093727A (zh) * | 2021-03-08 | 2021-07-09 | 哈尔滨工业大学(深圳) | 一种基于深度安全强化学习的机器人无地图导航方法 |
CN113189867A (zh) * | 2021-03-24 | 2021-07-30 | 大连海事大学 | 一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法 |
CN113534668A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115616922A (zh) * | 2022-12-19 | 2023-01-17 | 安徽大学 | 一种异构移动机器人集群的时间覆盖控制方法 |
CN115616922B (zh) * | 2022-12-19 | 2023-03-21 | 安徽大学 | 一种异构移动机器人集群的时间覆盖控制方法 |
CN117111640A (zh) * | 2023-10-24 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117111640B (zh) * | 2023-10-24 | 2024-01-16 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
CN117472066A (zh) * | 2023-12-27 | 2024-01-30 | 成都流体动力创新中心 | 一种航向角速度局部最优的避障控制方法 |
CN117472066B (zh) * | 2023-12-27 | 2024-03-26 | 成都流体动力创新中心 | 一种航向角速度局部最优的避障控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11205124B1 (en) | Method and system for controlling heavy-haul train based on reinforcement learning | |
CN110928189B (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
CN111738512A (zh) | 一种基于cnn-ipso-gru混合模型的短期电力负荷预测方法 | |
CN110472738A (zh) | 一种基于深度强化学习的无人艇实时避障算法 | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
CN110751318A (zh) | 一种基于ipso-lstm的超短期电力负荷预测方法 | |
CN112613657A (zh) | 风电场短期风速预测方法 | |
Zhou et al. | Multirobot collaborative pursuit target robot by improved MADDPG | |
Park et al. | Source term estimation using deep reinforcement learning with Gaussian mixture model feature extraction for mobile sensors | |
Fang et al. | Two-stream fused fuzzy deep neural network for multiagent learning | |
Peng et al. | Model-based actor-critic with chance constraint for stochastic system | |
CN114859899B (zh) | 移动机器人导航避障的演员-评论家稳定性强化学习方法 | |
CN114859899A (zh) | 移动机器人导航避障的演员-评论家稳定性强化学习方法 | |
Zhou et al. | A Real-time algorithm for USV navigation based on deep reinforcement learning | |
Song et al. | Application of surrogate-assisted global optimization algorithm with dimension-reduction in power optimization of floating offshore wind farm | |
Ao et al. | The application of DQN in thermal process control | |
Bai | AGA-LSTM: An Optimized LSTM Neural Network Model Based on Adaptive Genetic Algorithm | |
Li et al. | Research on Path Planning of Cloud Robot in Dynamic Environment Based on Improved DDPG Algorithm | |
Hu et al. | Prediction of River Water Quality Based on Neural Network Model | |
Huang et al. | A long short-term memory based wind power prediction method | |
Zhou et al. | Research on the fuzzy algorithm of path planning of mobile robot | |
Zuo et al. | Flight attitude simulator control system design based on model-free reinforcement learning method | |
Li et al. | Research on Multi-robot Path Planning Method Based on Improved MADDPG Algorithm | |
Meng et al. | Automatic control method of automobile steering-by-wire based on fuzzy PID |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |