CN112015174B - 一种多agv运动规划方法、装置和系统 - Google Patents

一种多agv运动规划方法、装置和系统 Download PDF

Info

Publication number
CN112015174B
CN112015174B CN202010663470.1A CN202010663470A CN112015174B CN 112015174 B CN112015174 B CN 112015174B CN 202010663470 A CN202010663470 A CN 202010663470A CN 112015174 B CN112015174 B CN 112015174B
Authority
CN
China
Prior art keywords
agv
action
current
neural network
current agv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010663470.1A
Other languages
English (en)
Other versions
CN112015174A (zh
Inventor
王学强
张一凡
邹李兵
张富强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN202010663470.1A priority Critical patent/CN112015174B/zh
Priority to US17/309,922 priority patent/US20220317695A1/en
Priority to PCT/CN2020/114422 priority patent/WO2022007179A1/zh
Publication of CN112015174A publication Critical patent/CN112015174A/zh
Application granted granted Critical
Publication of CN112015174B publication Critical patent/CN112015174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • G05D1/0297Fleet control by controlling means in a control room
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本申请公开一种多AGV运动规划方法、装置和系统。本申请的方法包括:通过强化学习方法建立对象模型;基于对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对神经网络模型进行训练,直至得到稳定的神经网络模型;设置动作约束规则;启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得神经网络模型输出的运动规划结果的评估指标,根据评估指标得到当前AGV待执行动作,并利用动作约束规则对待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作。本申请的技术方案能够改善多AGV运动规划方法在动态密集环境中的性能。

Description

一种多AGV运动规划方法、装置和系统
技术领域
本申请涉及计算机技术领域,具体涉及一种多AGV运动规划方法、装置和系统。
背景技术
近年来,智能体(Automated Guided Vehicles,AGV)在智能制造和物流领域的应用逐步推广普及,有效的提高了生产、制造和搬运环节的运输效率,减轻了人力工作负担。其中,通过多AGV协同工作能够提高AGV工作效率,但同时会使运动规划问题更加复杂和困难。常见的路径规划算法,如A*算法,人工势场法等,在处理多AGV运动规划问题时,存在计算代价高,容易陷入局部最小解等问题。
发明内容
本申请提供了一种多AGV运动规划方法、装置和系统,用于解决或部分解决上述技术问题。
第一方面,本申请提供了一种多AGV运动规划方法,该方法包括:
通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作;
基于对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对神经网络模型进行训练,直至得到稳定的神经网络模型;
设置动作约束规则,利用动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得神经网络模型输出的运动规划结果的评估指标,根据评估指标得到当前AGV待执行动作,并利用动作约束规则对所述待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作。
第二方面,本申请提供了一种多AGV运动规划装置,该装置包括:
建模单元,用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作;
训练单元,用于基于对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对神经网络模型进行训练,直至得到稳定的神经网络模型;
设置单元,用于设置动作约束规则,利用动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
实施单元,用于启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得神经网络模型输出的运动规划结果的评估指标,根据评估指标得到当前AGV待执行动作,并利用所述动作约束规则对待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作。
第三方面,本申请提供了一种多AGV运动规划系统,包括部署多AGV运动规划装置的控制中心、部署在环境中由多个AGV构成的AGV群和任务调度中心平台;
AGV群中的AGV利用自身传感器获取自身状态并上传给控制中心,以及接收控制中心下发的动作指令,执行动作指令对应的动作;
任务调度中心平台,用于完成任务规划与任务派发,将某个AGV的任务发送至控制中心,由控制中心控制该AGV完成任务;
控制中心,内置稳定的神经网络模型,将接收到的AGV状态输入到神经网络模型,利用神经网络模型计算得到该AGV的运动规划策略,再根据该运动规划策略生成动作指令并下发给该AGV。
第四方面,本申请提供了一种电子设备,存储器和处理器;存储器,存储计算机可执行指令;处理器,计算机可执行指令在被执行时使处理器执行多AGV运动规划方法。
第五方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被执行时实现多AGV运动规划方法。
本申请的有益效果是:本发明一方面采用深度强化学习方法,利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点,改善多AGV运动规划方法在动态环境中的性能;本发明另一方面将最优路径搜索算法和深度强化学习算法进行结合,使用最优路径搜索算法约束深度强化学习算法的学习方向,以使AGV在密集环境下能够规划出可行路线,避免AGV陷入局部死锁状态。
附图说明
图1是本申请一个实施例的多AGV运动规划方法的流程示意图;
图2是本申请一个实施例的多AGV运动环境示意图;
图3是本申请一个实施例的多AGV运动规划设计示意图;
图4是本申请一个实施例的基于GA3C框架建立的深度强化学习训练框架的结构示意图;
图5是本申请一个实施例的多AGV运动规划装置的功能框图;
图6是本申请一个实施例的多AGV运动规划系统的结构示意图;
图7是本申请一个实施例的控制中心对系统的控制状态示意图;
图8是本申请一个实施例的电子设备的结构示意图;
图9是本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
目前,在动态密集环境下进行多AGV运动规划,多AGV运动规划问题面临着搜索空间增大、环境动态变化等问题,并且难度会随着环境规模扩大、AGV数量增加而呈指数级增高。现有运动规划算法存在难以求解或者计算代价过大等问题,且在密集环境下,现有方法容易导致AGV死锁,不能很好的完成运动规划。
基于以上描述,本申请实施例以深度强化学习方法为基础,解决在动态环境下多AGV的运动规划问题,并将深度强化学习方法与最优路径搜索方法相结合,解决密集环境下多AGV的运动规划问题,完成在动态密集环境下的多AGV运动规划任务。
参见图1,该方法包括如下步骤:
步骤S110,通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,该对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作。
本步骤中,当前AGV的许可动作是根据最优路径策略和动作空间获得。
步骤S120,基于该对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对神经网络模型进行训练,直至得到稳定的神经网络模型。
步骤S130,设置动作约束规则,利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断。
本步骤中,动作约束规则可以对当前AGV的待执行动作进行有效性判断,在判断待执行动作为有效动作时,启动运动规划后,当前AGV即可直接执行该待执行动作,在判断待执行动作为无效动作时,启动运动规划后,当前AGV需要从动作空间中提取出当前AGV的最优路径包含的多个可执行动作,从多个可执行动作中选择相应的动作执行。
步骤S140,启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得神经网络模型输出的运动规划结果的评估指标,根据评估指标得到当前AGV待执行动作,并利用动作约束规则对待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作。
由图1所示可知,本实施例一方面采用深度强化学习方法,利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点,改善多AGV运动规划方法在动态环境中的性能;本实施例另一方面将最优路径搜索算法和深度强化学习算法进行结合,使用最优路径搜索算法约束深度强化学习算法的学习方向,以使AGV在密集环境下能够规划出可行路线,避免AGV陷入局部死锁状态。
下面以一个多AGV运动环境为例,对在多AGV运动环境中的当前AGV的运动规划方法的实现步骤进行具体说明。
参见图2示出的多AGV运动环境,为AGV常见的任务场景,如工厂、仓库、物流中心等环境。图2中的黑心圆形表示AGV所处位置;黑心星形表示AGV的目标位置;斜线区域表示环境中的禁行区,如障碍物、工区、货架等,一般可依据任务场景的地图图纸、安全规范等实际条件绘制,AGV禁止进入禁行区;虚线表示路径,箭头表示路径的方向,AGV需要按照所处路径的方向沿该路径行驶;路网由路径组成,表示AGV在环境内许可的行驶路线,路网中的路径需要形成闭环,即在路网上任意取两点作为出发位置和目标位置,能够在路网上搜索出至少一条由出发位置到目标位置的路径。
在搭建好多AGV运动环境后,进行运动规划算法设计,该运动规划算法设计包括对象模型的构建、神经网络模型的设计与训练、动作约束设计。
对象模型的构建:
在一个实施例中,上述步骤S110具体是使用马尔可夫决策过程描述对象模型,马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。
在本实施例的多AGV运动环境中,对象模型包括:AGV状态、动作空间以及运动规划结果的评估指标;其中,AGV状态包括当前AGV状态oa、其他AGV状态
Figure BDA0002579476660000061
和当前AGV的许可动作aa,运动规划结果的评估指标包括:策略π和值函数V;其中,
当前AGV状态oa包括:当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离;
其他AGV状态
Figure BDA0002579476660000062
包括:其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离;
当前AGV的许可动作aa:根据最优路径策略和动作空间获得;
动作空间a:在当前AGV的本体极坐标系下的速度与角度;
策略π:用于描述当前AGV在t时刻的联合状态ot下选择动作at的策略;
值函数V:用于描述在联合状态ot下采取策略π的预期收益;
联合状态ot:由当前AGV状态oa、其他AGV状态
Figure BDA0002579476660000071
和许可动作aa构成的状态。
在一实施例中,对象模型还包括:用于描述当前AGV采取动作at给予的奖励r,以及折扣因子γ是在计算当前AGV执行动作at所获得奖励时使用的衰减因子,用于调整值函数的输出。
即上述各对象模型具体内容如下:
1.状态s:
AGV状态sa包含AGV位置、速度、目标位置、尺寸、最近n(n为大于1的整数)个状态的平均速度、AGV和目标的路网距离,AGV状态sa的获得方式不依赖于特定传感器,可以表示为:
sa=[px,py,vx,vy,pgx,pgy,r,vm,dgrn]∈R9
其中,在基于多AGV运动环境的欧氏坐标系∑e下,(px,py)表示AGV的位置,(vx,vy)表示AGV的速度,(pgx,pgy)表示目标位置,r表示AGV尺寸,vm表示最近n个状态的平均速度,dgrn表示AGV和目标的路网距离。
同理,相对于当前AGV,多AGV运动环境内其他AGV的状态
Figure BDA0002579476660000075
表示如下:
Figure BDA0002579476660000072
其中,
Figure BDA0002579476660000073
表示第i个AGV的状态,表示为:
Figure BDA0002579476660000074
观察o:
为适应不同运动环境,避免坐标变换带来的影响,以及实现去中心化的训练方法,本实施例将在全局欧氏坐标系∑e下表示的AGV状态变换为在当前AGV的本体极坐标系∑p下表示的AGV观察状态,即当前AGV状态oa,表示为:
oa=[rvv,rgg,r,vm,dgrm]∈R7
其中,(rvv)表示当前AGV速度的极坐标,(rgg)表示当前AGV目标的极坐标,r表示当前AGV尺寸,vm表示最近n个状态的平均速度,dgrm表示当前AGV和目标的路网距离。
同理,在当前AGV的本体极坐标系∑p下观察环境内其他AGV的状态,即其他AGV状态
Figure BDA0002579476660000081
表示为:
Figure BDA0002579476660000082
其中,
Figure BDA0002579476660000083
表示第i个AGV的观察状态,可以表示为:
Figure BDA0002579476660000084
其中,
Figure BDA0002579476660000085
表示第i个AGV在∑p下相对位置的极坐标,
Figure BDA0002579476660000086
表示第i个AGV在∑p下相对速度的极坐标,
Figure BDA0002579476660000087
表示第i个AGV在∑p下目标的相对位置的极坐标,
Figure BDA0002579476660000088
表示第i个AGV和目标的路网距离,表示
Figure BDA0002579476660000089
第i个AGV的尺寸,
Figure BDA00025794766600000810
表示第i个AGV和当前AGV的尺寸之和,
Figure BDA00025794766600000811
表示第i个AGV和当前AGV的路网距离。
许可动作aa
AGV沿路网中由出发位置到目标位置的最优路径行驶,因此,AGV在当前所处位置许可执行的动作与当前所处位置的最优路径存在约束关系,该约束关系表示为许可执行的动作方向与最优路径方向的一致。基于此,本实施例利用动作空间a和最优路径方向θor进行编码,得到当前AGV在当前所处位置的许可动作aa,其中动作空间a和最优路径方向θor进行编码的一种表示方式为:
Figure BDA00025794766600000812
在本实施例中,可以在路网中根据出发位置和目标位置,使用路径搜索算法得到AGV的最优路径(或最优路径方向θor),其中,路径搜索算法包括A*算法(A*是一种静态路网中求解最短路径的直接搜索方法,目前暂无中文译名),Dijkstra算法(最短路径算法),M*算法(又称为大M算法)。
2.动作空间a
当前AGV采取的动作空间a是指在当前AGV的本体极坐标系∑p的速度v和角度θ,动作空间a基于本体极坐标系∑p描述,不受不同环境全局坐标系的坐标变换影响,表示如下:
a=[v,θ]∈R2
3.状态转移模型p:
当前AGV在当前联合状态ot采取动作at,转移到下一联合状态ot的概率分布p(ot+1,ot|at)。
4.奖励r
奖励函数描述多AGV运动环境对当前AGV采取动作at给予的奖励,包括至少三种描述类型,第一种描述类型Rgoal为在当前AGV到达或靠近目标位置时给予的奖励,第二种描述类型Ragv为在当前AGV碰撞或靠近其他AGV时给予的惩罚,第三种描述类型Rrn为在当前AGV偏离路网时给予的惩罚;其中,
通过下述方式设置第一种描述类型Rgoal
在当前AGV到达目标位置pg时,给予正值的最大奖励值α;
在当前AGV靠近目标位置pg时,给予正值的折扣奖励值i*α;以及,
在当前AGV静止或远离目标位置pg时,给予负值的折扣奖励值-i*α;
其中,基于路网距离设置第一折扣系数i,由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α。
通过下述方式设置所述第二种描述类型Ragv
当前AGV与其他AGV的距离小于第一阈值条件tagv时,给予最大惩罚值β;
在当前AGV与其他AGV的距离大于所述第一阈值条件tagv且小于第二阈值条件m*tagv时,给予折扣惩罚值j*β;以及,
在当前AGV与其他AGV的距离大于所述第二阈值条件m*tagv时,不给予惩罚,m为预设倍数值;
其中,基于距离设置第二折扣系数j,由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β。
通过下述方式设置所述第三种描述类型Rrn
在当前AGV与当前路径的距离drn不小于第三阈值条件trn时,给与惩罚δ;
在当前AGV与当前路径的距离drn小于第三阈值条件trn时,不给予惩罚。
在t时刻,完整的奖励函数Rt为:
Rt=Rgoal+Ragv+Rrn
5.折扣因子γ
是在计算当前AGV执行动作at所获得奖励时使用的衰减因子,用于调整值函数的输出,γ∈[0,1)。
6.策略π
根据当前AGV在t时刻联合状态ot,当前AGV选择动作at的策略π可描述为:
π:(at|ot;wt)
其中,wt表示当前神经网络模型的参数,该策略π的目标是使当前AGV到达目标位置的期望时间最小化,并避免与其他AGV发生碰撞以及避免偏离路网。
7.值函数V
当前AGV在联合状态ot下采取策略π的预期收益,可描述为:
V(ot;wt)=E[Rt|ot]
利用上述描述的参数可以基于马尔可夫决策过程描述对象模型,完成对象模型的构建。
神经网络模型的设计与训练
本实施例可以通过下述方法构建神经网络模型:
采用全连接神经网络搭建神经网络模型,如图3所示,该神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作;其中,
当前AGV的许可动作输入到第一单隐层全连接神经网络,
当前AGV状态输入到第二单隐层全连接神经网络,
其他AGV状态输入到长短期记忆网络(Long Short-Term Memory,LSTM),再输入到第三单隐层全连接神经网络,
将三个单隐层全连接神经网络的输出串联成为一个张量后,输入到双隐层全连接神经网络,由双隐层全连接神经网络输出运动规划结果的评估指标;
该神经网络模型的输出为双隐层全连接神经网络的输出。
其中,第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度,第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度,由全连接层和激活函数ReLU串行后组成单隐层全连接神经网络,即由全连接层和ReLU串行后组成第一单隐层全连接神经网络、第二单隐层全连接神经网络、第三单隐层全连接神经网络。
由于本实施例中其他AGV状态对应的张量维度远大于许可动作、当前AGV状态的张量维度,若直接将其他AGV状态、当前AGV状态和许可动作拼接成一个张量输入到神经网络模型,将会因为输入数据维度的不平衡而影响神经网络模型的性能,导致输出结果欠佳。而本实施例先将三个输入张量各自输入到对应的单隐层全连接神经网络,通过单隐层全连接神经网络对输入张量进行维度平衡后,再拼接成一个张量输入到双隐层全连接神经网络,则可以提升整个模型的性能。
在一个实施例中,在将其他AGV状态输入到长短期记忆网络之前,先提取其他AGV与当前AGV的距离,将其他AGV状态按照与当前AGV的距离由远到近排序之后,再输入到LSTM。
在一个实施例中,可以基于GA3C训练框架建立深度强化学习训练框架,搭建神经网络模型,建立的深度强化学习训练框架由多个AGV构成的智能体、数据队列和基于GPU的神经网络模型三个部分组成。
需要说明的是,GA3C是指应用于图形处理器(Graphics Processing Unit,GPU)的异步优势评价器算法(Asynchronous Advantage Actor-Critic,A3C),GA3C框架使用GPU进行强化学习训练,能够提升模型训练速度和性能。
在一个优选实施例中,在GA3C训练框架中添加多个并行运算GPU,建立基于多GPU的神经网络模型,相应的,深度强化学习训练框架由智能体、数据队列和多GPU的神经网络模型组成。
如图4所示,本实施例中的深度强化学习训练框架包括:
由多个AGV构成的智能体,用于与外界环境交互,实时获取AGV的状态、动作等数据,为搭建深度强化学习训练框架的提供数据。
数据队列中包括有预测器和训练器,得到的训练数据和预测数据均存储在该数据队列中。
其中,通过预测器根据当前策略π选择动作at,并收集AGV状态、动作空间作为训练数据,输入训练器进行训练,并通过预测器输入当前AGV状态到神经网络模型,从神经网络模型得到策略π和值函数V,并选择动作at,计算奖励r得到预测数据;通过训练器输入当前AGV状态、许可动作、其他AGV状态神经网络模型,训练神经网络模型,以更新神经网络模型的参数。
在一个实施例中,图1步骤S120具体是设置至少一个环境,每个环境中部署多个AGV,各个环境中的地图和/或路网和/或AGV数量不同;将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到所述神经网络模型进行训练,以更新神经网络模型的参数。
可以理解的是,不同环境可以是在路径、禁行区、AGV数量、目标等各个方面可以都不相同、部分相同或者完全一致,增加环境的类型,能够促进算法在不同环境下训练,保证模型的适用性。
在一个实施例中,多GPU的神经网络模型,由多个并行运算的GPU组成,构成多GPU的基于深度强化学习的神经网络模型。
在一个实施例中,更新神经网络模型的参数的过程包括:
将当前AGV状态、许可动作、其他AGV状态作为训练数据;随机初始化神经网络模型参数,基于获得动作at和获得的奖励r,计算策略损失函数fπ(w)和值函数损失函数fV(w);通过反向传播算法,更新各个GPU中神经网络模型的参数,训练神经网络模型;检测一段时间内累积的奖励r、策略损失函数fπ(w)和值函数损失函数fV(w)的变化过程,根据奖励和损失函数判断神经网络模型的性能,直至得到稳定的神经网络模型。
本实施例中,累积的奖励越高,表示神经网络模型的性能越好,损失函数的值越低,表示神经网络模型的性能越好。当奖励和损失函数的值均到达稳定区间,则可得到稳定的神经网络模型。
其中,策略损失函数fπ(w)表示为:
fπ(w)=logπ(at|ot;wt)(Rt-V(ot;wt))+φH(π(ot;w))
其中,表示策略损失函数中的正则项,起到调节fπ(w)的作用。
值函数损失函数fV(w)表示为:
fV(w)=(Rt-V(ot;wt))2
动作约束设计
在本实施例中,动作约束规则用于限制神经网络模型输出的策略,并进一步限制当前AGV动作的选择,从而将当前AGV执行的动作约束在最优路径许可动作范围内,促进模型在训练过程中收敛。
在一个实施例中,图1步骤S130中基于评估指标得到的当前AGV的待执行动作可以是采用贪婪算法选择神经网络输出策略中概率最大的动作。
相应的图1中利用动作约束规则对待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作,包括:
判断待执行动作是否为当前AGV的许可动作,若待执行动作为当前AGV的许可动作,当前AGV执行该待执行动作。
若待执行动作不是当前AGV的许可动作,根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作,计算当前AGV的有效动作并执行。具体是:从当前AGV的动作空间中提取最优路径包含的多个第一许可动作;利用神经网络模型输出的运动规划结果的评估指标从多个第一许可动作中选择满足预设条件的第二许可动作;根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞,若发生碰撞,当前AGV执行静止动作,若未发生碰撞,当前AGV执行该第二许可动作。
在一个实施例中,可以利用策略π计算出每个第一许可动作对应的概率值,选择概率值最大对应的第一许可动作为第二许可动作。
与前述方法相对应,本申请还提供了一种多AGV运动规划装置。
图5是本申请一个实施例的多AGV运动规划装置的功能框图,如图5所示,多AGV运动规划装置500包括:
建模单元510,用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,该对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作;
训练单元520,用于设置动作约束规则,利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
设置单元530,用于设置动作约束规则,利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
实施单元540,用于启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得该神经网络模型输出的运动规划结果的评估指标,根据该评估指标得到当前AGV待执行动作,并利用动作约束规则对该待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作。
在一个实施例中,实施单元540包括判断模块、第一动作执行模块和第二动作执行模块;
判断模块,用于判断所述待执行动作是否为当前AGV的许可动作;
第一动作执行模块,用于在该待执行动作为当前AGV的许可动作时,使当前AGV执行该待执行动作;
第二动作执行模块,用于在该待执行动作不是当前AGV的许可动作,根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作,计算当前AGV的有效动作并执行。
在一个实施例中,第二动作执行模块,还用于从当前AGV的动作空间中提取最优路径包含的多个第一许可动作;利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作;根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞,若发生碰撞,当前AGV执行静止动作,若未发生碰撞,当前AGV执行该第二许可动作。
在一个实施例中,运动规划结果的评估指标包括:用于描述当前AGV在t时刻的联合状态下选择动作at的策略π和用于描述在联合状态下采取策略π的预期收益的值函数V,联合状态为由当前AGV状态、其他AGV状态和许可动作构成的状态;
第二动作执行模块,具体是用于利用所述策略π计算出每个第一许可动作对应的概率值,选择概率值最大对应的第一许可动作为第二许可动作。
在一个实施例中,建模单元510是使用马尔可夫决策过程描述所述对象模型,所述许可动作根据最优路径策略和动作空间获得,所述动作空间为在当前AGV的本体极坐标系下的速度与角度;
所述当前AGV状态包括:当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离;
其他AGV状态包括:其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离;
所述对象模型还包括:用于描述当前AGV采取动作给予的奖励,该奖励包括至少三种描述类型,第一种描述类型为在当前AGV到达或靠近目标位置时给予的奖励,第二种描述类型为在当前AGV碰撞或靠近其他AGV时给予的惩罚,第三种描述类型为在当前AGV偏离路网时给予的惩罚;其中,
通过下述方式设置所述第一种描述类型:
在当前AGV到达目标位置pg时,给予正值的最大奖励值α;基于路网距离设置第一折扣系数i,由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α,在当前AGV靠近目标位置pg时,给予正值的折扣奖励值i*α;以及在当前AGV静止或远离目标位置pg时,给予负值的折扣奖励值-i*α;
通过下述方式设置所述第二种描述类型:
当前AGV与其他AGV的距离小于第一阈值条件tagv时,给予最大惩罚值β;基于距离设置第二折扣系数j,由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β,在当前AGV与其他AGV的距离大于所述第一阈值条件tagv且小于第二阈值条件m*tagv时,给予折扣惩罚值j*β;以及在当前AGV与其他AGV的距离大于所述第二阈值条件m*tagv时,不给予惩罚;m为预设倍数值;
通过下述方式设置所述第三种描述类型:
在当前AGV与当前路径的距离不小于第三阈值条件trn时,给与惩罚δ;在当前AGV与当前路径的距离小于第三阈值条件trn时,不给予惩罚。
在一个实施例中,训练单元520包括模型构建模块,该模型构建模块是采用全连接神经网络搭建所述神经网络模型,所述神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作;其中,当前AGV的许可动作输入到第一单隐层全连接神经网络,当前AGV状态输入到第二单隐层全连接神经网络,其他AGV状态输入到长短期记忆网络,再输入到第三单隐层全连接神经网络,将三个单隐层全连接神经网络的输出串联成为一个张量后,输入到双隐层全连接神经网络,由双隐层全连接神经网络输出运动规划结果的评估指标;第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度,所述第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度。
在一个实施例中,训练单元520还包括环境设置模块,该环境设置模块用于设置至少一个环境,每个环境中部署多个AGV,各个环境中的地图和/或路网和/或AGV数量不同,将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到所述神经网络模型进行训练,以更新所述神经网络模型的参数。
以上所描述的装置实施例仅仅是示意性的,具体实施方式可以参照前述方法实施例的具体实施方式进行,在此不再赘述。
图6是本申请一个实施例的多AGV运动规划系统的结构示意图,图7示出本申请一个实施例的控制中心对系统的控制状态示意图,如图6与图7所示,该多AGV运动规划系统600包括:包括部署多AGV运动规划装置500的控制中心610、部署在环境中由多个AGV构成的AGV群620和任务调度中心平台630;
AGV群620中的AGV利用自身传感器获取自身状态并上传给控制中心610,以及接收控制中心610下发的动作指令,执行动作指令对应的动作。
其中,同一环境下的AGV采用多进程方式运行,通过多进程数据共享技术实现多AGV数据通信,同时采用多进程数据同步技术实现多AGV同步运行。
任务调度中心平台630,用于完成任务规划与任务派发,将某个AGV的任务发送至控制中心610,由控制中心610制该AGV完成任务。
任务调度中心平台将第j台AGV的任务发送至控制中心,由控制中心控制该第j台AGV完成任务。任务调度中心平台可以包含显示界面,用以实时监督AGV群执行任务的情况,并在碰撞、环境改变等突发状况下及时进行干预。
控制中心610,内置稳定的神经网络模型,将接收到的AGV状态输入到神经网络模型,利用神经网络模型计算得到该AGV的运动规划策略,再根据该运动规划策略生成动作指令并下发给该AGV。
综上所示,本申请的技术方案,一方面采用深度强化学习方法,利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点,改善多AGV运动规划方法在动态环境中的性能;本实施例另一方面将最优路径搜索算法和深度强化学习算法进行结合,使用最优路径搜索算法约束深度强化学习算法的学习方向,以使AGV在密集环境下能够规划出可行路线,避免AGV陷入局部死锁状态。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的多AGV运动规划装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图8示出本申请一个实施例的电子设备的结构示意图,该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如,用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所述的计算机可读存储介质。
图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831,可以被多AGV运动规划装置800的处理器810读取,当计算机可读程序代码831由多AGV运动规划装置800运行时,导致该多AGV运动规划装置800执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种多AGV运动规划方法,其特征在于,包括:
通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,所述对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作;
基于所述对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对所述神经网络模型进行训练,直至得到稳定的神经网络模型;
设置动作约束规则,利用所述动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得所述神经网络模型输出的运动规划结果的评估指标,根据所述评估指标得到当前AGV待执行动作,并利用所述动作约束规则对所述待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作,具体是
判断所述待执行动作是否为当前AGV的许可动作,当前AGV的许可动作是利用动作空间和最优路径方向进行编码得到的,最优路径方向是根据出发位置和目标位置,使用路径搜索算法得到;若所述待执行动作为当前AGV的许可动作,当前AGV执行该待执行动作;若所述待执行动作不是当前AGV的许可动作,根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作,计算当前AGV的有效动作并执行;
其中,若所述待执行动作不是当前AGV的许可动作,根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作,计算当前AGV的有效动作并执行,包括:
从当前AGV的动作空间中提取最优路径包含的多个第一许可动作;利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作;根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞,若发生碰撞,当前AGV执行静止动作,若未发生碰撞,当前AGV执行该第二许可动作。
2.如权利要求1所述的方法,其特征在于,所述运动规划结果的评估指标包括:用于描述当前AGV在t时刻的联合状态下选择动作at的策略π和用于描述在联合状态下采取策略π的预期收益的值函数V,联合状态为由当前AGV状态、其他AGV状态和许可动作构成的状态;
利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作,包括:
利用所述策略π计算出每个第一许可动作对应的概率值,选择概率值最大对应的第一许可动作为第二许可动作。
3.如权利要求1所述的方法,其特征在于,使用马尔可夫决策过程描述所述对象模型,所述许可动作根据最优路径策略和动作空间获得,所述动作空间为在当前AGV的本体极坐标系下的速度与角度;
所述当前AGV状态包括:当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离;
其他AGV状态包括:其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离。
4.如权利要求3所述的方法,其特征在于,所述对象模型还包括:用于描述当前AGV采取动作给予的奖励,该奖励包括至少三种描述类型,第一种描述类型为在当前AGV到达或靠近目标位置时给予的奖励,第二种描述类型为在当前AGV碰撞或靠近其他AGV时给予的惩罚,第三种描述类型为在当前AGV偏离路网时给予的惩罚;其中,
通过下述方式设置所述第一种描述类型:
在当前AGV到达目标位置pg时,给予正值的最大奖励值α;基于路网距离设置第一折扣系数i,由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α,在当前AGV靠近目标位置pg时,给予正值的折扣奖励值i*α;以及在当前AGV静止或远离目标位置pg时,给予负值的折扣奖励值-i*α;
通过下述方式设置所述第二种描述类型:
当前AGV与其他AGV的距离小于第一阈值条件tagv时,给予最大惩罚值β;基于距离设置第二折扣系数j,由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β,在当前AGV与其他AGV的距离大于所述第一阈值条件tagv且小于第二阈值条件m*tagv时,给予折扣惩罚值j*β;以及在当前AGV与其他AGV的距离大于所述第二阈值条件m*tagv时,不给予惩罚;m为预设倍数值;
通过下述方式设置所述第三种描述类型:
在当前AGV与当前路径的距离不小于第三阈值条件trn时,给与惩罚δ;在当前AGV与当前路径的距离小于第三阈值条件trn时,不给予惩罚。
5.如权利要求4所述的方法,其特征在于,基于所述对象模型搭建神经网络模型,包括:
采用全连接神经网络搭建所述神经网络模型,所述神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作;其中,
当前AGV的许可动作输入到第一单隐层全连接神经网络,
当前AGV状态输入到第二单隐层全连接神经网络,
其他AGV状态输入到长短期记忆网络,再输入到第三单隐层全连接神经网络,
将三个单隐层全连接神经网络的输出串联成为一个张量后,输入到双隐层全连接神经网络,由双隐层全连接神经网络输出运动规划结果的评估指标;
所述第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度,所述第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度。
6.如权利要求5所述的方法,其特征在于,在将其他AGV状态输入到长短期记忆网络之前,还包括:
提取其他AGV与当前AGV的距离,将其他AGV状态按照与当前AGV的距离由远到近排序之后,再输入到长短期记忆网络。
7.如权利要求5所述的方法,其特征在于,基于所述对象模型搭建神经网络模型,还包括:
由全连接层和激活函数串行后组成单隐层全连接神经网络。
8.如权利要求1所述的方法,其特征在于,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对所述神经网络模型进行训练,包括:
设置至少一个环境,每个环境中部署多个AGV,各个环境中的地图和/或路网和/或AGV数量不同;
将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到所述神经网络模型进行训练,以更新所述神经网络模型的参数。
9.一种多AGV运动规划装置,其特征在于,包括:
建模单元,用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型,所述对象模型中包括:AGV状态、动作空间以及运动规划结果的评估指标,其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作;
训练单元,用于基于所述对象模型搭建神经网络模型,进行包括AGV群部署在内的环境设置,利用所设置环境下AGV的对象模型对所述神经网络模型进行训练,直至得到稳定的神经网络模型;
设置单元,用于设置动作约束规则,利用所述动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断;
实施单元,用于启动运动规划后,将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中,获得所述神经网络模型输出的运动规划结果的评估指标,根据所述评估指标得到当前AGV待执行动作,并利用所述动作约束规则对所述待执行动作进行有效判断,使当前AGV根据判断结果执行有效动作;
其中实施单元包括判断模块、第一动作执行模块和第二动作执行模块;
判断模块,用于判断所述待执行动作是否为当前AGV的许可动作,当前AGV的许可动作是利用动作空间和最优路径方向进行编码得到的,最优路径方向是根据出发位置和目标位置,使用路径搜索算法得到;
第一动作执行模块,用于在该待执行动作为当前AGV的许可动作时,使当前AGV执行该待执行动作;
第二动作执行模块,用于在该待执行动作不是当前AGV的许可动作,根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作,计算当前AGV的有效动作并执行,具体是从当前AGV的动作空间中提取最优路径包含的多个第一许可动作;利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作;根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞,若发生碰撞,当前AGV执行静止动作,若未发生碰撞,当前AGV执行该第二许可动作。
10.一种多AGV运动规划系统,其特征在于,包括部署如权利要求9所述的多AGV运动规划装置的控制中心、部署在环境中由多个AGV构成的AGV群和任务调度中心平台;
所述AGV群中的AGV利用自身传感器获取自身状态并上传给控制中心,以及接收控制中心下发的动作指令,执行所述动作指令对应的动作;
所述任务调度中心平台,用于完成任务规划与任务派发,将某个AGV的任务发送至控制中心,由控制中心控制该AGV完成任务;
所述控制中心,内置稳定的神经网络模型,将接收到的AGV状态输入到神经网络模型,利用神经网络模型计算得到该AGV的运动规划策略,再根据该运动规划策略生成动作指令并下发给该AGV。
CN202010663470.1A 2020-07-10 2020-07-10 一种多agv运动规划方法、装置和系统 Active CN112015174B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010663470.1A CN112015174B (zh) 2020-07-10 2020-07-10 一种多agv运动规划方法、装置和系统
US17/309,922 US20220317695A1 (en) 2020-07-10 2020-09-10 Multi-agv motion planning method, device and system
PCT/CN2020/114422 WO2022007179A1 (zh) 2020-07-10 2020-09-10 一种多agv运动规划方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010663470.1A CN112015174B (zh) 2020-07-10 2020-07-10 一种多agv运动规划方法、装置和系统

Publications (2)

Publication Number Publication Date
CN112015174A CN112015174A (zh) 2020-12-01
CN112015174B true CN112015174B (zh) 2022-06-28

Family

ID=73498821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010663470.1A Active CN112015174B (zh) 2020-07-10 2020-07-10 一种多agv运动规划方法、装置和系统

Country Status (3)

Country Link
US (1) US20220317695A1 (zh)
CN (1) CN112015174B (zh)
WO (1) WO2022007179A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835333B (zh) * 2020-12-31 2022-03-15 北京工商大学 一种基于深度强化学习多agv避障与路径规划方法及系统
CN113128770B (zh) * 2021-04-23 2022-08-09 新疆大学 基于dqn的不确定车间环境下物料配送实时优化方法
CN113627646A (zh) * 2021-07-08 2021-11-09 中汽创智科技有限公司 一种基于神经网络的路径规划方法、装置、设备及介质
CN113342004B (zh) * 2021-07-29 2021-10-29 山东华力机电有限公司 基于人工智能和视觉感知的多agv小车调度方法及系统
US20220114301A1 (en) * 2021-12-23 2022-04-14 Intel Corporation Methods and devices for a collaboration of automated and autonomous machines
CN114463997B (zh) * 2022-02-14 2023-06-16 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
US11814072B2 (en) * 2022-02-14 2023-11-14 May Mobility, Inc. Method and system for conditional operation of an autonomous agent
CN114708527A (zh) * 2022-03-09 2022-07-05 中国石油大学(华东) 一种基于极坐标表示的数字冰壶策略价值提取方法
WO2023203721A1 (ja) * 2022-04-21 2023-10-26 日本電信電話株式会社 配送計画装置、配送計画方法、及びプログラム
CN114779780B (zh) * 2022-04-26 2023-05-12 四川大学 一种随机环境下路径规划方法及系统
CN114815840A (zh) * 2022-04-29 2022-07-29 中国科学技术大学 基于深度强化学习的多智能体路径规划方法
CN115049324B (zh) * 2022-08-17 2022-11-04 上海国际港务(集团)股份有限公司 码头agv车调度方法、装置、计算机设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
JP2014211667A (ja) * 2013-04-17 2014-11-13 日本電信電話株式会社 ロボット協調搬送計画装置、方法及びプログラム
CN107967513A (zh) * 2017-12-25 2018-04-27 徐雪松 多机器人强化学习协同搜索方法及系统
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377878B1 (en) * 1999-06-24 2002-04-23 Sandia Corporation Convergent method of and apparatus for distributed control of robotic systems using fuzzy logic
MXPA03000264A (es) * 2000-07-10 2004-01-26 United Parcel Service Inc Metodo para determinar trayectoria de conflicto entre vehiculos moviles en el aire y un producto de programa de software de computadora y sistema asociado.
US8954260B2 (en) * 2010-06-15 2015-02-10 GM Global Technology Operations LLC Method and system for collision assessment for vehicles
EP3445539A4 (en) * 2016-04-27 2020-02-19 Neurala Inc. METHODS AND APPARATUS FOR PRUNING EXPERIENCE MEMORIES FOR DEEP NEURONAL NETWORK-BASED Q-LEARNING
US20180208195A1 (en) * 2017-01-20 2018-07-26 Pcms Holdings, Inc. Collaborative risk controller for vehicles using v2v
US11243532B1 (en) * 2017-09-27 2022-02-08 Apple Inc. Evaluating varying-sized action spaces using reinforcement learning
AU2018274849A1 (en) * 2017-12-05 2019-06-20 The Raymond Corporation Systems and methods for a material handling vehicle with a modular frame
WO2019168710A1 (en) * 2018-03-02 2019-09-06 Walmart Apollo, Llc Systems and methods for delivering merchandise using autonomous ground vehicles
JP7182885B2 (ja) * 2018-03-22 2022-12-05 三菱電機株式会社 運転開始条件変換装置および運転開始条件変換方法
CN113015982A (zh) * 2018-10-29 2021-06-22 Hrl实验室有限责任公司 具有竞争性奖励调节脉冲时间依赖的可塑性的人工神经网络及其训练方法
US11657251B2 (en) * 2018-11-12 2023-05-23 Honda Motor Co., Ltd. System and method for multi-agent reinforcement learning with periodic parameter sharing
US10853670B2 (en) * 2018-11-21 2020-12-01 Ford Global Technologies, Llc Road surface characterization using pose observations of adjacent vehicles
JP6962900B2 (ja) * 2018-12-03 2021-11-05 ファナック株式会社 生産計画装置
JP2020098401A (ja) * 2018-12-17 2020-06-25 トヨタ自動車株式会社 車両情報管理装置及び車両情報管理方法
CN109724612B (zh) * 2019-01-14 2021-06-15 浙江华睿科技有限公司 一种基于拓扑地图的agv路径规划方法及设备
GB2581789A (en) * 2019-02-22 2020-09-02 Tra Robotics Ltd Wireless battery charging system for automated guided vehicles (AGVs)
US20200272159A1 (en) * 2019-02-25 2020-08-27 Denso International America, Inc. Method and vehicle control system for intelligent vehicle control about a roundabout
WO2020206071A1 (en) * 2019-04-02 2020-10-08 Brain Corporation Systems, apparatuses, and methods for cost evaluation and motion planning for robotic devices
US20210148716A1 (en) * 2019-11-20 2021-05-20 Here Global B.V. Method, apparatus and computer program product for vehicle platooning
CN111240356B (zh) * 2020-01-14 2022-09-02 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111260031B (zh) * 2020-01-14 2022-03-01 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
US11586862B2 (en) * 2020-02-14 2023-02-21 Ford Global Technologies, Llc Enhanced object detection with clustering
CN111309035B (zh) * 2020-05-14 2022-03-04 浙江远传信息技术股份有限公司 多机器人协同移动与动态避障方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
JP2014211667A (ja) * 2013-04-17 2014-11-13 日本電信電話株式会社 ロボット協調搬送計画装置、方法及びプログラム
CN107967513A (zh) * 2017-12-25 2018-04-27 徐雪松 多机器人强化学习协同搜索方法及系统
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110378439A (zh) * 2019-08-09 2019-10-25 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Also Published As

Publication number Publication date
CN112015174A (zh) 2020-12-01
US20220317695A1 (en) 2022-10-06
WO2022007179A1 (zh) 2022-01-13

Similar Documents

Publication Publication Date Title
CN112015174B (zh) 一种多agv运动规划方法、装置和系统
CN111061277B (zh) 一种无人车全局路径规划方法和装置
Liu et al. Intelligent multi-task allocation and planning for multiple unmanned surface vehicles (USVs) using self-organising maps and fast marching method
Smith et al. Distributed inference-based multi-robot exploration
Xue et al. System identification of ship dynamic model based on Gaussian process regression with input noise
CN107103164B (zh) 无人机执行多任务的分配方法及装置
CN109933067A (zh) 一种基于遗传算法和粒子群算法的无人艇避碰方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN112256037B (zh) 应用于自动驾驶的控制方法、装置、电子设备及介质
Liu et al. Automated clash resolution for reinforcement steel design in concrete frames via Q-learning and Building Information Modeling
Liu et al. ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles
Tagliaferri et al. A real-time strategy-decision program for sailing yacht races
Qiu Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Yang et al. Improved reinforcement learning for collision-free local path planning of dynamic obstacle
Liu et al. Cooperative Decision-Making for CAVs at Unsignalized Intersections: A MARL Approach with Attention and Hierarchical Game Priors
CN114919578B (zh) 智能车行为决策方法、规划方法、系统及存储介质
US20220300002A1 (en) Methods and systems for path planning in a known environment
CN114609925A (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
KR20230024392A (ko) 주행 의사 결정 방법 및 장치 및 칩
Li et al. A multi-objective bi-level task planning strategy for UUV target visitation in ocean environment
Toan et al. Environment exploration for mapless navigation based on deep reinforcement learning
Liu et al. Enhancing Social Decision-Making of Autonomous Vehicles: A Mixed-Strategy Game Approach With Interaction Orientation Identification
CN116448134B (zh) 基于风险场与不确定分析的车辆路径规划方法及装置
CN112859849A (zh) 自动行驶设备的路口运动规划方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant