CN114859899A - 移动机器人导航避障的演员-评论家稳定性强化学习方法 - Google Patents

移动机器人导航避障的演员-评论家稳定性强化学习方法 Download PDF

Info

Publication number
CN114859899A
CN114859899A CN202210403450.XA CN202210403450A CN114859899A CN 114859899 A CN114859899 A CN 114859899A CN 202210403450 A CN202210403450 A CN 202210403450A CN 114859899 A CN114859899 A CN 114859899A
Authority
CN
China
Prior art keywords
network
mobile robot
obstacle avoidance
strategy
navigation obstacle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210403450.XA
Other languages
English (en)
Other versions
CN114859899B (zh
Inventor
张立宪
张瑞先
翁睿
蔡博
杨嘉楠
朱益民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd
Original Assignee
Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd filed Critical Harbin Institute Of Technology Institute Of Artificial Intelligence Co ltd
Priority to CN202210403450.XA priority Critical patent/CN114859899B/zh
Priority claimed from CN202210403450.XA external-priority patent/CN114859899B/zh
Publication of CN114859899A publication Critical patent/CN114859899A/zh
Application granted granted Critical
Publication of CN114859899B publication Critical patent/CN114859899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Electromagnetism (AREA)
  • Optics & Photonics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了移动机器人导航避障的演员‑评论家稳定性强化学习方法,属于移动机器人自主导航及规避障碍物技术领域,包括以下步骤:步骤一:网络模型构造;步骤二:网络模型参数初始化;步骤三:训练价值评估网络与李雅普诺夫函数网络;步骤四:训练最小李雅普诺夫值网络;步骤五:训练导航避障策略网络;步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度;本发明提高策略训练收敛速度以及在导航避障过程中的安全性。

Description

移动机器人导航避障的演员-评论家稳定性强化学习方法
技术领域
本发明属于移动机器人自主导航及规避障碍物技术领域,具体涉及移动机器人导航避障的演员-评论家稳定性强化学习方法。
背景技术
移动机器人导航避障中强化学习算法的稳定性保证,是指在训练策略中和在实际策略测试中,移动机器人在给定一个初始的安全区域中,移动机器人在整个任务过程中不会进入不安全的区域,或者移动机器人初始时刻在一个不安全的区域,在完成任务过程中,移动机器人能够根据自身状态调整,使得其能够恢复到安全区域中,这种恢复保持性能称之为移动机器人导航避障的稳定性保证。
近年来,国内外机器人相关企业研究单位在利用强化学习训练自主导航避障策略中,通过不同的理论来保证移动机器人在导航避障过程中的稳定性,以提高机器人的安全性。
强化学习应用于移动机器人导航避障的稳定性保证是强化学习应用到实际的关键之一,当前强化学习技术应用于实际物理机器人的问题主要有训练模型速度较慢,及训练的模型对训练场景之外的环境适应性较差,不能保证机器人的安全性,这两个问题制约了强化学习在真实世界中的落地产业化。现有的保证强化学习在移动机器人导航避障中安全的方法,通过在训练阶段对机器人状态增加状态约束,使得机器人尽可能不违反安全约束,然而这种方法需要多传感器检测所约束的各个状态,并且计算量较大,算法体系复杂,不适用于当前计算资源受限,传感器较为单一的移动机器人系统。
另外一种保证强化学习在移动机器人导航避障中安全的方法,通过引入控制理论中的渐近稳定性来保证强化学习算法的闭环稳定性,安全区域定义为状态空间的一个子集,使得任何在这个集合中开始的状态轨迹都会一直在这个集合中,并最终收敛到一个目标状态,以实现整个导航避障过程的安全,而该方法在基于模型的强化学习中取得了一些成果,但是在不基于模型的强化学习算法中应用较少,这些不基于模型的强化学习算法中,在训练策略过程中表现出收敛速度较慢,并在障碍物间距较近的移动机器人导航避障中表现较差。
发明内容
为解决上述背景技术中提出的问题。本发明提供了移动机器人导航避障的演员-评论家稳定性强化学习方法,具有结合控制理论中的李雅普诺夫稳定性概念,在不基于模型的强化学习中,训练移动机器人导航避障策略,并且满足李雅普诺夫稳定性条件,从而提高策略训练收敛速度以及在导航避障过程中安全性的特点。
为实现上述目的,本发明提供如下技术方案:移动机器人导航避障的演员-评论家稳定性强化学习方法,包括以下步骤:
步骤一:网络模型构造
利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络,价值评估网络和李雅普诺夫函数网络;
步骤二:网络模型参数初始化
随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,初始化策略网络训练过程中涉及到的超参数;
步骤三:训练价值评估网络与李雅普诺夫函数网络
构造价值评估网络与李雅普诺夫函数网络的优化目标函数,从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
训练最小李雅普诺夫值网络,获取李雅普诺夫函数网络取得最小值的策略πm
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,保证满足李雅普诺夫函数下降条件;
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
本发明中进一步的,所述步骤一中,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布。
本发明中进一步的,所述步骤一中,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q。
本发明中进一步的,所述步骤一中,利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f。
本发明中进一步的,所述步骤一中,为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf。
本发明中进一步的,所述步骤三中,价值评估网络的优化目标函数构造的具体步骤为:
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
Figure BDA0003601279630000031
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
Figure BDA0003601279630000032
本发明中进一步的,所述步骤三中,李雅普诺夫函数网络的优化目标函数构造的具体步骤为:
在本发明中,李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπ(s,a),并有:
Figure BDA0003601279630000033
其中,c为在状态s下采取动作a获得的惩罚,
利用递归关系,可以得到公式1-4的贝尔曼方程:
Lπ(s,a)=Es'~p(·|s,a)[c+γEa'~π(·|s')[Lπ(s',a')]] (1-5)
由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为:
Figure BDA0003601279630000034
本发明中进一步的,所述步骤四的具体步骤为:
训练获取最小李雅普诺夫函数的策略
Figure BDA0003601279630000035
优化目标函数为:
J(θm)=L(s,a) (1-7)
通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为:
L*(s,a)=L(s,πm(·|s)) (1-8)。
本发明中进一步的,所述步骤五的具体步骤为:
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:
minJ(θ)
使得Es~μ,a~π[Es'~p,a'~πL(s',a')-L*(s,a)]≤-α3Es~μ,a~πc(s,a),
其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到本发明算法的最优目标函数为:
J(θ)=-A(s,a)logπ(s,a)+λ(L(s′,a′)-L*(s,a)+α3c) (1-9)
其中,
Figure BDA0003601279630000041
与现有技术相比,本发明的有益效果是:
本发明减少移动机器人导航避障中传感器的数量,有效减轻移动机器人算法结构,降低计算复杂度,同时通过给出闭环系统稳定性条件,能够有效的提高训练策略效率,提高移动机器人导航避障安全性。
附图说明
图1为本发明的概要流程图;
图2为本发明稳定性条件中李雅普诺夫函数值下降图;
图3为本发明具体实现算法伪代码图;
图4为本发明策略模型神经网络结构图;
图5为本发明价值评估与李雅普诺夫函数神经网络结构图;
图6为本发明与其他方法的收敛速度效果对比图;
图7为本发明与其他方法的安全效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-7,本发明提供以下技术方案:移动机器人导航避障的演员-评论家稳定性强化学习方法,包括以下步骤:
步骤一:网络模型构造
如附图4所示,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布;
如附图5所示,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q;
如附图5所示,利用神经网络技术构造李雅普诺夫函数网络,步骤与构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f;
为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf;
由附图4和附图5可知,本发明只需要利用激光雷达深度信息、定位信息和机器人速度信息,其中,定位信息和速度信息属于低维状态信息,所需使用传感器仅有三种,有效的减少因约束其状态而使用更多的传感器;
步骤二:网络模型参数初始化
初始化附图3算法中的存储空间D,包括存储空间的存储数据的位数及大小,随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,及最小李雅普诺夫函数策略网络参数,初始化策略网络训练过程中涉及到的拉格朗日乘子λ和超参数α3
步骤三:训练价值评估网络与李雅普诺夫函数网络
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
Figure BDA0003601279630000051
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
Figure BDA0003601279630000061
在本发明中,李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπ(s,a),并有:
Figure BDA0003601279630000062
其中,c为在状态s下采取动作a获得的惩罚,
利用递归关系,可以得到公式1-4的贝尔曼方程:
Lπ(s,a)=Es'~p(·|s,a)[c+γEa'~π(·|s')[Lπ(s',a')]] (1-5)
由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为:
Figure BDA0003601279630000063
从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
训练获取最小李雅普诺夫函数的策略
Figure BDA0003601279630000064
优化目标函数为:
J(θm)=L(s,a) (1-7)
通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为:
L*(s,a)=L(s,πm(·|s)) (1-8);
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:
minJ(θ)
使得Es~μ,a~π[Es'~p,a'~πL(s',a')-L*(s,a)]≤-α3Es~μ,a~πc(s,a),
其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到本发明算法的最优目标函数为:
J(θ)=-A(s,a)logπ(s,a)+λ(L(s′,a′)-L*(s,a)+α3c) (1-9)
其中,
Figure BDA0003601279630000071
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
本发明在执行时,与演员-评论家(AC)算法和其它基于稳定分析的安全强化学习方法(SLL)在移动机器人导航避障中相比较,由附图6可知,本发明取得的平均回报比AC和SLL算法高,而且到达稳定回报时需要的训练步数更少,验证了本发明训练移动机器人导航避障策略具有收敛速度较快的特点,由附图7可知,本发明取得的安全花销比AC和SLL更低,即本发明保证了算法的稳定性,使得其具有更高的安全性,验证了本发明能够有效提高安全性。
值得注意的是,附图6和附图7中的步数大于600×25后,各个网络开始训练学习,在此之前,均为随机策略,以获取各网络训练所需样本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于,包括以下步骤:
步骤一:网络模型构造
利用神经网络技术构造基于演员-评论家算法在移动机器人导航避障中的策略网络,价值评估网络和李雅普诺夫函数网络;
步骤二:网络模型参数初始化
随机初始化S1中构造的移动机器人导航避障策略网络,及价值评价网络参数,及李雅普诺夫函数网络参数,初始化策略网络训练过程中涉及到的超参数;
步骤三:训练价值评估网络与李雅普诺夫函数网络
构造价值评估网络与李雅普诺夫函数网络的优化目标函数,从存储空间批次随机采样对构造的目标函数进行优化求解;
步骤四:训练最小李雅普诺夫值网络
训练最小李雅普诺夫值网络,获取李雅普诺夫函数网络取得最小值的策略πm
步骤五:训练导航避障策略网络
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,保证满足李雅普诺夫函数下降条件;
步骤六:判断导航避障策略是否收敛至稳定策略,若否,则重复步骤三、步骤四和步骤五,直到导航避障策略收敛至稳定策略,若是,得到稳定导航避障策略,通过输入移动机器人当前状态,输出移动机器人运动速度。
2.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造策略网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据和移动机器人速度数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置和移动机器人速度数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出移动机器人的动作分布。
3.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造价值评估网络的具体步骤为输入上一时刻激光雷达数据、当前时刻激光雷达数据、目标相对位置数据、移动机器人速度数据和当前时刻动作数据,两个时刻激光雷达数据经一维卷积和全连接层进行降维,目标相对位置、移动机器人速度数据和当前时刻动作数据经全连接层进行预处理,再与降维数据合并,经全连接层组合特征并分类后输出评估价值,评估价值为一维向量Q。
4.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,利用神经网络技术构造李雅普诺夫函数网络的具体步骤与利用神经网络技术构造价值评估网络的具体步骤相同,不同的是李雅普诺夫函数网络输出为李雅普诺夫函数值,且李雅普诺夫函数值为16维向量f。
5.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤一中,为了保证李雅普诺夫函数网络输出正定,该网络输入状态s和动作a,返回值为fTf。
6.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤三中,价值评估网络的优化目标函数构造的具体步骤为:
在本发明中,Q价值函数用于评估当前状态和当前所采取的动作策略,记做Qπ(s,a),并有:
Figure FDA0003601279620000021
其中,τ~π表示为动作状态序列{s0,a0,r1,s1,a1,…}服从策略π,γ∈[0,1]是折扣系数,r为在状态s下采取动作a获得的奖励,
利用递归关系,可以得到公式1-1的贝尔曼方程:
Qπ(s,a)=Es'~p(·|s,a)[r+γEa'~π(·|s')[Qπ(s',a')]] (1-2)
其中,p(·|s,a)为状态转移概率,
由公式1-2,可以构造价值评估网络优化的目标函数为:
Figure FDA0003601279620000022
7.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤三中,李雅普诺夫函数网络的优化目标函数构造的具体步骤为:
在本发明中,李雅普诺夫函数用于衡量当前状态和当前所采取的策略所获得的惩罚,记做Lπ(s,a),并有:
Figure FDA0003601279620000023
其中,c为在状态s下采取动作a获得的惩罚,
利用递归关系,可以得到公式1-4的贝尔曼方程:
Lπ(s,a)=Es'~p(·|s,a)[c+γEa'~π(·|s')[Lπ(s',a')]] (1-5)
由公式1-5,可以构造李雅普诺夫函数网络优化的目标函数为:
Figure FDA0003601279620000031
8.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤四的具体步骤为:
训练获取最小李雅普诺夫函数的策略
Figure FDA0003601279620000032
优化目标函数为:
J(θm)=L(s,a) (1-7)
通过优化上述目标函数,可以得到当前状态s下的最小李雅普诺夫函数值为:
L*(s,a)=L(s,πm(·|s)) (1-8)。
9.根据权利要求1所述的移动机器人导航避障的演员-评论家稳定性强化学习方法,其特征在于:所述步骤五的具体步骤为:
训练导航避障策略网络,在满足演员-评论家算法策略中的最优目标函数同时,需保证以下稳定性条件,即:
min J(θ)
使得Es~μ,a~π[Es'~p,a'~πL(s',a')-L*(s,a)]≤-α3Es~μ,a~πc(s,a),
其中,μ为采样分布,p为状态转移分布,利用拉格朗日乘子法,得到本发明算法的最优目标函数为:
J(θ)=-A(s,a)logπ(s,a)+λ(L(s′,a′)-L*(s,a)+α3c) (1-9)
其中,
Figure FDA0003601279620000033
CN202210403450.XA 2022-04-18 移动机器人导航避障的演员-评论家稳定性强化学习方法 Active CN114859899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210403450.XA CN114859899B (zh) 2022-04-18 移动机器人导航避障的演员-评论家稳定性强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210403450.XA CN114859899B (zh) 2022-04-18 移动机器人导航避障的演员-评论家稳定性强化学习方法

Publications (2)

Publication Number Publication Date
CN114859899A true CN114859899A (zh) 2022-08-05
CN114859899B CN114859899B (zh) 2024-05-31

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115616922A (zh) * 2022-12-19 2023-01-17 安徽大学 一种异构移动机器人集群的时间覆盖控制方法
CN117111640A (zh) * 2023-10-24 2023-11-24 中国人民解放军国防科技大学 基于风险态度自调整的多机避障策略学习方法及装置
CN117472066A (zh) * 2023-12-27 2024-01-30 成都流体动力创新中心 一种航向角速度局部最优的避障控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN113010963A (zh) * 2021-03-04 2021-06-22 山东大学 基于深度强化学习的变质量水下航行器避障方法及系统
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113189867A (zh) * 2021-03-24 2021-07-30 大连海事大学 一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
US20210333793A1 (en) * 2020-04-24 2021-10-28 Harbin Institute Of Technology Indoor Monocular Navigation Method Based on Cross-Sensor Transfer Learning and System Thereof
WO2022052406A1 (zh) * 2020-09-08 2022-03-17 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
US20210333793A1 (en) * 2020-04-24 2021-10-28 Harbin Institute Of Technology Indoor Monocular Navigation Method Based on Cross-Sensor Transfer Learning and System Thereof
WO2022052406A1 (zh) * 2020-09-08 2022-03-17 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN113010963A (zh) * 2021-03-04 2021-06-22 山东大学 基于深度强化学习的变质量水下航行器避障方法及系统
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113189867A (zh) * 2021-03-24 2021-07-30 大连海事大学 一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115616922A (zh) * 2022-12-19 2023-01-17 安徽大学 一种异构移动机器人集群的时间覆盖控制方法
CN115616922B (zh) * 2022-12-19 2023-03-21 安徽大学 一种异构移动机器人集群的时间覆盖控制方法
CN117111640A (zh) * 2023-10-24 2023-11-24 中国人民解放军国防科技大学 基于风险态度自调整的多机避障策略学习方法及装置
CN117111640B (zh) * 2023-10-24 2024-01-16 中国人民解放军国防科技大学 基于风险态度自调整的多机避障策略学习方法及装置
CN117472066A (zh) * 2023-12-27 2024-01-30 成都流体动力创新中心 一种航向角速度局部最优的避障控制方法
CN117472066B (zh) * 2023-12-27 2024-03-26 成都流体动力创新中心 一种航向角速度局部最优的避障控制方法

Similar Documents

Publication Publication Date Title
US11205124B1 (en) Method and system for controlling heavy-haul train based on reinforcement learning
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111738512A (zh) 一种基于cnn-ipso-gru混合模型的短期电力负荷预测方法
CN110472738A (zh) 一种基于深度强化学习的无人艇实时避障算法
US10962976B1 (en) Motion control method and system for biomimetic robotic fish based on adversarial structured control
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
CN110751318A (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN112613657A (zh) 风电场短期风速预测方法
Zhou et al. Multirobot collaborative pursuit target robot by improved MADDPG
Park et al. Source term estimation using deep reinforcement learning with Gaussian mixture model feature extraction for mobile sensors
Fang et al. Two-stream fused fuzzy deep neural network for multiagent learning
Peng et al. Model-based actor-critic with chance constraint for stochastic system
CN114859899B (zh) 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN114859899A (zh) 移动机器人导航避障的演员-评论家稳定性强化学习方法
Zhou et al. A Real-time algorithm for USV navigation based on deep reinforcement learning
Song et al. Application of surrogate-assisted global optimization algorithm with dimension-reduction in power optimization of floating offshore wind farm
Ao et al. The application of DQN in thermal process control
Bai AGA-LSTM: An Optimized LSTM Neural Network Model Based on Adaptive Genetic Algorithm
Li et al. Research on Path Planning of Cloud Robot in Dynamic Environment Based on Improved DDPG Algorithm
Hu et al. Prediction of River Water Quality Based on Neural Network Model
Huang et al. A long short-term memory based wind power prediction method
Zhou et al. Research on the fuzzy algorithm of path planning of mobile robot
Zuo et al. Flight attitude simulator control system design based on model-free reinforcement learning method
Li et al. Research on Multi-robot Path Planning Method Based on Improved MADDPG Algorithm
Meng et al. Automatic control method of automobile steering-by-wire based on fuzzy PID

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant