CN110926470B - 一种agv导航控制方法及系统 - Google Patents

一种agv导航控制方法及系统 Download PDF

Info

Publication number
CN110926470B
CN110926470B CN201910908871.6A CN201910908871A CN110926470B CN 110926470 B CN110926470 B CN 110926470B CN 201910908871 A CN201910908871 A CN 201910908871A CN 110926470 B CN110926470 B CN 110926470B
Authority
CN
China
Prior art keywords
agv
target
module
navigation
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910908871.6A
Other languages
English (en)
Other versions
CN110926470A (zh
Inventor
李卓炜
傅晓阳
陈悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai College of Jilin University
Original Assignee
Zhuhai College of Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai College of Jilin University filed Critical Zhuhai College of Jilin University
Priority to CN201910908871.6A priority Critical patent/CN110926470B/zh
Publication of CN110926470A publication Critical patent/CN110926470A/zh
Application granted granted Critical
Publication of CN110926470B publication Critical patent/CN110926470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4189Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the transport system
    • G05B19/41895Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the transport system using automatic guided vehicles [AGV]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/60Electric or hybrid propulsion means for production processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种AGV车导航控制方法及系统,用于实现:为目标AGV车设定起始位置、目标位置及导航任务;目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。本发明通过提高AGV车的查找最优路径的效率,提高AGV车的导航效率。

Description

一种AGV导航控制方法及系统
技术领域
本发明涉及计算机智能导航领域,特别涉及一种AGV导航控制方法及系统。
背景技术
前AGV自动引导小车已经成为智能制造、先进物流以及数字化工厂中的重要设备,作为方便工厂运输、提高生产效率具有非常重要的作用。而所谓自动引导,即是沿着指定轨迹运行,目前常见的巡线导航有光电传感器、视觉、激光和磁导航传感器等等,对于光电传感器,配合黑白胶带整体便宜、简单,但是信号很容易因为地面不平导致不稳、胶带易受灰尘、垃圾影响等,导致巡线不能很稳定;视觉可视范围大,对线的要求不高,但是很容易受光线影响,且视频采集处理卡价格不菲,采样频率不高;而目前国内外市面上最常见的AGV产品大多采用磁条导航。而磁条导航AGV虽然相对价格便宜,且运行也较为可靠,但是每次运行AGV需要铺设磁条,特别路径较长时,铺设工作量较大,路径过长时,磁条的成本会比较高,同时更换路线后,由于磁条底部粘性变弱,不能重复使用,磁条后期在水、碾压、磨损等条件下,维护较麻烦,而随着工业4.0和智能制造需求,因此市场上对一种使用更灵活、方便的AGV导航方法的研发是迫在眉睫。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提出一种AGV导航控制方法及系统。
本发明的技术方案包括一种AGV车导航控制方法,其特征在于,该方法包括:S10,为目标AGV车设定起始位置、目标位置及导航任务;S20,目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;S30,根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
根据所述的AGV车导航控制方法,其中步骤S10具体包括:S11,为目标AGV车设定固定运动场所,其中场所还包括有其他多个AGV车;S12,根据所述目标AGV车的目标位置及首选速度矢量,确定导航的联合状态。
根据所述的AGV车导航控制方法,其中步骤S20通过群机交互模型进行深度强化学习技术并得到价值策略网络,所述群机交互模型包括交互模块、池化模块及规划模块,其中,所述交互模块用于模拟群机交互规则,并通过局部地图对群机交互进行编码,所述群机交互为多个AGV车的交互;所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量;所述规划模块用于评目标AGV车与其他AGV车的联合状态的值以进行导航。
根据所述的AGV车导航控制方法,其中交互模块具体包括:构建局部地图,所述局部地图包括以每个AGV车i为中心的地图张量Mi来编码邻居AGV车的存在和速度矢量其中
Figure GDA0002377334900000021
其中w′j=(vxj,vyj,1)为其他AGV车j的局部状态向量,δmn[xj-xi,yj-yi]为指标函数,Ni是第i个AGV车ith周围的邻近AGV车的集合;使用多层感知器将其他AGV车i的状态、地图张量Mi以及机器人的状态嵌入到固定长度矢量ei中,具体为ei=φe(s,wi,Mi,We),其中φe(·)是具有ReLU激活的嵌入函数,We是嵌入权重,嵌入向量ei被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征hi=ψh(ei,Wh),其中ψh(·)是具有ReLU非线性的完全连接层,Wh是网络权重。
根据所述的AGV车导航控制方法,其中池化模块具体包括:
通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响,包括:将交互嵌入ei被转换为注意分数ai,转换方式为
Figure GDA0002377334900000022
及ai=ψa(ei,em,Wa),其中em是通过平均汇集所有AGV个体获得的固定长度嵌入向量,ψa是具有ReLU激活的多层感知器,Wa是权重;给定成对交互向量hi和每个AGV车i的对应关注度得分αi,群体c的最终表示是所有对的加权线性组合:
Figure GDA0002377334900000023
根据所述的AGV车导航控制方法,其中规划模块具体包括:通过v估计合作规划的状态值,其中v=fv(s,c,Wv),其中fv(·)是具有ReLU激活的多层感知器,权重由Wv表示。
根据所述的AGV车导航控制方法,其中步骤S30具体包括:设st表示机器人的状态,
Figure GDA0002377334900000031
表示其他机器人在时间t的状态,机器人导航的联合状态定义为
Figure GDA0002377334900000032
最优政策
Figure GDA0002377334900000033
则最大化的预期收益为
Figure GDA0002377334900000034
其中
Figure GDA0002377334900000035
其中,
Figure GDA0002377334900000036
是在时间t收到的奖励,γ∈(0,1)为折扣因子,V*是最优值函数,
Figure GDA0002377334900000037
是从时间t到时间t+Δt的转移概率,dt是机器人和其他机器人在时间段[t-Δt,t]之间的最小间隔距离。
本发明的技术方案还包括一种AGV车导航控制系统,用于上述任一所述方法,其特征在于:设定模块,用于为目标AGV车设定起始位置、目标位置及导航任务;深度强化学习模块,对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;收益预期模块,用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
本发明的有益效果为:提高AGV的导航效率。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1所示为根据本发明实施方式的系统框图;
图2所示为根据本发明实施方式的总体流程图;
图3所示为根据本发明实施方式的交互模块示意图;
图4所示为根据本发明实施方式的规划模块及池化模块示意图;图5所示为根据本发明实施方式的池模块的体系结构图;
图6所示为根据本发明实施方式的详细流程图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
图1所示为根据本发明实施方式的系统框图。该系统包括:设定模块,用于为目标AGV车设定起始位置、目标位置及导航任务;深度强化学习模块,对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;收益预期模块,用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
图2所示为根据本发明实施方式的总体流程图。该流程包括:S10,为目标AGV车设定起始位置、目标位置及导航任务;S20,目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;S30,根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
基于图2,具体提出以下实施方式:
提出一个导航任务,其中机器人通过一群其他机器人向目标移动。这可以表述为强化学习框架中的顺序决策问题。对于每个agent(机器人),其他人可以观察到位置P=[px,py],速度矢量V=[vx,vy]和半径r。机器人也意识到其不可观察的状态,包括目标位置Pg和首选速度矢量Vpref。我们假设机器人vt的速度矢量可以在动作命令后立即实现at,i.e.,vt=at。设st表示机器人的状态,
Figure GDA0002377334900000051
表示其他机器人在时间t的状态。机器人导航的联合状态定义为
Figure GDA0002377334900000052
最优政策
Figure GDA0002377334900000053
是最大化的预期收益:
Figure GDA0002377334900000054
其中,
Figure GDA0002377334900000056
其中,
Figure GDA0002377334900000057
是在时间t收到的奖励,γ∈(0,1)是一个折扣因子,V*是最优值函数,
Figure GDA0002377334900000058
是从时间t到时间t+Δt的转移概率。优选速度矢量Vpref用作折扣因子中的归一化项。根据奖励函数的制定,在奖励碰撞或不舒服的距离的同时奖励任务成就,
Figure GDA0002377334900000059
其中dt是机器人和其他机器人在时间段[t-Δt,t]之间的最小间隔距离。
图3所示为根据本发明实施方式的模块连接示意图。价值策略网络由时间差分方法训练,具有标准经验重放和固定目标网络技术。如算法(1)中所述,首先使用一组演示经验通过模仿学习初始化模型,然后根据交互经验进行细化。与之前的工作的一个区别是下一个状态
Figure GDA00023773349000000510
是通过查询环境真实值而不是用线性运动模型逼近来获得的,从而减轻了系统动力学的问题。训练。在部署期间,转移概率可以通过轨迹预测模型来近似。
为了有效地解决问题(1),价值策略网络模型需要准确地近似隐含地编码代理之间的社会合作的最优值函数V*。之前在此轨道上的作品并没有完全模拟人群交互,这降低了人口稠密场景的价值估计的准确性。在接下来的部分中,我们将介绍一种新颖的群机交互模型,该模型可以有效地学习导航进入的空间。
我们设计一个模型,该模型可以计算相对重要性并编码邻近代理对社会兼容导航的集体影响。受社会统筹和注意力模型的启发,我们引入了一个由三个模块组成的社交关注网络:
交互模块:明确地模拟群机交互,并通过大致地局部地图编码群机交互。
池化模块:通过自注意机制将交互聚合到固定长度的嵌入向量中。
规划模块:估计机器人和其他机器人的联合状态的值以进行导航。
由3个模块组成,机器人和每个机器人之间的交互从交互模块中提取并随后在交互模块中聚合。计划模块估计机器人和其他机器人的联合状态的值以用于导航。
参数:以机器人为中心的参数化,其中机器人位于原点,x轴指向机器人的目标。在变换之后,机器人的状态和行走的人是:
s=[dg,vpref,vx,vy,r],
wi=[px,py,vx,vy,ri,di,ri+r],(3)
其中dg=||p-pg||2是机器人到目标的距离,而是di=||p-pi||2机器人与相邻的物体i的距离。
图4所示为根据本发明实施方式的交互模块示意图。每个机器人都对目标机器人产生影响,同时受到他/她邻近机器人的影响。对其他机器人之间的所有相互作用进行显式建模会导致O(N2)复杂性[14],这对于在密集场景中扩展的策略而言在计算上是不可取的。我们通过引入成对交互模块来解决这个问题,该模块明确地模拟群机交互,同时使用局部地图作为群机交互的大致表示。
给定大小为L的邻域,我们构造一个以每个机器人人i为中心的L×L×3地图张量Mi来编码邻居的存在和速度矢量,在图3中称为局部地图:
Mi(a,b,:)=∑δab[xj-xi,yj-yi]w′j, (4)
其中
Figure GDA0002377334900000061
是其他机器人j的局部状态向量,δmn[xj-xi,yj-yi]是一个指标函数,只有相对位置(Δx,Δy)位于单元格(a,b)中才等于1,Ni是第i个机器人ith周围的邻近机器人集合。
我们使用多层感知器(MLP)将其他机器人i的状态和地图张量Mi以及机器人的状态嵌入到固定长度矢量ei中:
ei=φe(s,wi,Mi;We), (5)
其中φe(·)是具有ReLU激活的嵌入函数,We是嵌入权重。
嵌入向量ei被馈送到随后的MLP以获得机器人和其他机器人i之间的成对交互特征:
hi=ψh(ei;Wh), (6)
其中ψh(·)是具有ReLU非线性的完全连接层,Wh是网络权重。
图4所示为根据本发明实施方式的规划模块及池化模块示意图。
包括使用多层感知器来提取机器人和其他机器人i之间的成对交互特征。
由于周围机器人的数量可以在不同的场景中大幅变化,我们需要一个能够处理固定大小输出的任意数量输入的模型.Everett等。建议按照它们到机器人的距离的降序顺序将所有机器人的状态送入LSTM。然而,最接近的邻居影响最大的基本假设并不总是正确的。一些其他因素,例如速度矢量和方向,对于正确估计邻居的重要性也是必不可少的,这反映了该邻居可能如何影响机器人的目标获取。利用自注意机制的最新进展,通过查看序列中的其他项目获得序列中项目的注意力,我们提出了一个池化模块了解每个邻居的相对重要性以及机群以数据驱动方式的集体影响。
池化模型:
交互嵌入ei被转换为注意分数ai如下:
Figure GDA0002377334900000071
ai=ψa(ei,em;Wa), (8)
其中em是通过平均汇集所有个体获得的固定长度嵌入向量,ψa是具有ReLU激活的MLP,Wa是权重。
给定成对交互向量hi和每个邻居i的对应关注度得分αi,群体的最终表示是所有对的加权线性组合:
Figure GDA0002377334900000081
规划模块
基于群机c的紧凑表示,构建了一个规划模块,用于估计合作规划的状态值v:
v=fv(s,c;Wv), (10)
其中fv(·)是具有ReLU激活的MLP,权重由Wv表示。
使用多层感知器从单个嵌入向量和平均嵌入向量计算每个机器人的注意力得分。最终的联合表示是成对相互作用的加权和。
图5所示为根据本发明实施方式的池模块的体系结构图。其交互参考图4中的池化模型及规划模块。
图6所示为根据本发明实施方式的详细流程图。包括以下流程:
S61,为目标AGV车设置固定场所;
S62,给目标AGV车任意一个当前状态,设定位置,并发出执行的指令;
S63,由于机器人需要以最快捷的速度矢量到这目标位置,因此机器人需要通过深度强化学习方法对所有可能做出的动作进行计算和估值,以获取奖励,以此形成价值策略网络,价值策略网络由时间差分为法训练;
S64,建主模仿学习初始化模型,寻找多种能到这目标位置的方法,设置在不同状态下的训练,使得数据被观测到的概率为最大,在部署期间,转移概率可以通过轨迹预测模型来近似;
S65,建主群机交互模型有效细化学习导航进入的空间,选择最优方法;
S66,交互模块:明确地模拟群机交互,并通过大致地局部地图编码群机交互;
S67,池化模块:通过自注意机制将交互聚合到固定长度的嵌入向量中;
S68,规划模块:估计器人和其他机器人的联合状态的值以进行导航;
S69,达到大化的预期收益。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种AGV车导航控制方法,其特征在于,该方法包括:
S10,为目标AGV车设定起始位置、目标位置及导航任务;
S20,目标AGV车根据起始位置和目标位置通过群机交互模型进行深度强化学习方法计算并进行评估,得到价值策略网络;
S30,根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益;
其中,所述步骤S10具体包括:
S11,为目标AGV车设定固定运动场所,其中场所还包括有其他多个AGV车;
S12,根据所述目标AGV车的目标位置及首选速度矢量,确定导航的联合状态;
所述步骤S20通过群机交互模型进行深度强化学习方法并得到价值策略网络,所述群机交互模型包括交互模块、池化模块及规划模块,其中,
所述交互模块用于模拟群机交互规则,并通过局部地图对群机交互进行编码,所述群机交互为多个AGV车的交互;
所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量;
所述规划模块用于评估目标AGV车与其他AGV车的联合状态的值以进行导航;
其中,所述交互模块具体包括:
构建局部地图,所述局部地图包括以每个AGV车i为中心的地图张量Mi来编码邻居AGV车的存在和速度矢量,其中,
Figure FDA0003032472170000011
其中w′j=(vxj,vyj,1)为其他AGV车j的局部状态向量,δab[xj-xi,yj-yi]为指标函数,Ni是第i个AGV车ith周围的邻近AGV车的集合;
使用多层感知器将其他AGV车i的状态、地图张量Mi以及AGV车的状态嵌入到固定长度矢量ei中,具体为ei=φe(s,wi,Mi,We),其中φe(·)是具有ReLU激活的嵌入函数,We是嵌入权重,嵌入向量ei被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征hi=ψh(ei,Wh),其中Ψh(·)是具有ReLU非线性的完全连接层,Wh是网络权重;
所述池化模块具体包括:通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响,包括:将交互嵌入ei被转换为注意分数ai,转换方式为
Figure FDA0003032472170000021
及ai=ψa(ei,em,Wa),其中em是通过平均汇集所有AGV个体获得的固定长度嵌入向量,ψa是具有ReLU激活的多层感知器,Wa是权重;给定成对交互向量hi和每个AGV车i的对应关注度得分αi,群体c的最终表示是所有对的加权线性组合:
Figure FDA0003032472170000022
所述规划模块具体包括:
通过v估计合作规划的状态值,其中v=fv(s,c,Wv),其中fv(·)是具有ReLU激活的多层感知器,权重由Wv表示;
其中,所述步骤S30具体包括:
设st表示AGV车的状态,
Figure FDA0003032472170000023
表示其他AGV车在时间t的状态,AGV车导航的联合状态定义为
Figure FDA0003032472170000024
最优政策π*:
Figure FDA0003032472170000025
则最大化的预期收益为:
Figure FDA0003032472170000026
其中
Figure FDA0003032472170000027
其中,
Figure FDA0003032472170000028
是在时间t收到的奖励,γ∈(0,1)为折扣因子,V*是最优值函数,
Figure FDA0003032472170000029
是从时间t到时间t+Δt的转移概率。
2.一种AGV车导航控制系统,用于执行权利要求1所述方法,其特征在于:
设定模块,用于为目标AGV车设定起始位置、目标位置及导航任务;
深度强化学习模块,对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估,得到价值策略网络;
收益预期模块,用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。
CN201910908871.6A 2019-09-25 2019-09-25 一种agv导航控制方法及系统 Active CN110926470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910908871.6A CN110926470B (zh) 2019-09-25 2019-09-25 一种agv导航控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910908871.6A CN110926470B (zh) 2019-09-25 2019-09-25 一种agv导航控制方法及系统

Publications (2)

Publication Number Publication Date
CN110926470A CN110926470A (zh) 2020-03-27
CN110926470B true CN110926470B (zh) 2021-06-25

Family

ID=69848832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910908871.6A Active CN110926470B (zh) 2019-09-25 2019-09-25 一种agv导航控制方法及系统

Country Status (1)

Country Link
CN (1) CN110926470B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880567B (zh) * 2020-07-31 2022-09-16 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216710A (zh) * 2007-12-28 2008-07-09 东南大学 一种由计算机实现的自适应选择动态生产调度控制系统
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107102644B (zh) * 2017-06-22 2019-12-10 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
CN108594803B (zh) * 2018-03-06 2020-06-12 吉林大学 基于q-学习算法的路径规划方法
CN109116854B (zh) * 2018-09-16 2021-03-12 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN109514553B (zh) * 2018-11-21 2021-09-21 苏州大学 一种机器人移动控制的方法、系统及设备

Also Published As

Publication number Publication date
CN110926470A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Tai et al. Socially compliant navigation through raw depth inputs with generative adversarial imitation learning
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
Chernova et al. Confidence-based policy learning from demonstration using gaussian mixture models
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
Chen et al. Robot navigation with map-based deep reinforcement learning
Liu et al. Map-based deep imitation learning for obstacle avoidance
Li et al. Oil: Observational imitation learning
CN110926470B (zh) 一种agv导航控制方法及系统
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN113759901A (zh) 一种基于深度强化学习的移动机器人自主避障方法
Cai et al. Carl-lead: Lidar-based end-to-end autonomous driving with contrastive deep reinforcement learning
Chen et al. Deep reinforcement learning of map-based obstacle avoidance for mobile robot navigation
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
Stein et al. Navigating in populated environments by following a leader
CN116907510A (zh) 一种基于物联网技术的智能化运动识别方法
Alamiyan-Harandi et al. A new framework for mobile robot trajectory tracking using depth data and learning algorithms
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统
CN115081612A (zh) 用以改进机器人策略学习的设备和方法
Ge et al. Deep reinforcement learning navigation via decision transformer in autonomous driving
Li et al. RDDRL: a recurrent deduction deep reinforcement learning model for multimodal vision-robot navigation
Messikommer et al. Contrastive initial state buffer for reinforcement learning
Gharaee et al. A Bayesian approach to reinforcement learning of vision-based vehicular control
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant