CN110926470B

CN110926470B - 一种agv导航控制方法及系统

Info

Publication number: CN110926470B
Application number: CN201910908871.6A
Authority: CN
Inventors: 李卓炜; 傅晓阳; 陈悦
Original assignee: Zhuhai College of Jilin University
Current assignee: Zhuhai College of Jilin University
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-06-25
Anticipated expiration: 2039-09-25
Also published as: CN110926470A

Abstract

本发明涉及一种AGV车导航控制方法及系统，用于实现：为目标AGV车设定起始位置、目标位置及导航任务；目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估，得到价值策略网络；根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。本发明通过提高AGV车的查找最优路径的效率，提高AGV车的导航效率。

Description

一种AGV导航控制方法及系统

技术领域

本发明涉及计算机智能导航领域，特别涉及一种AGV导航控制方法及系统。

背景技术

前AGV自动引导小车已经成为智能制造、先进物流以及数字化工厂中的重要设备，作为方便工厂运输、提高生产效率具有非常重要的作用。而所谓自动引导,即是沿着指定轨迹运行,目前常见的巡线导航有光电传感器、视觉、激光和磁导航传感器等等，对于光电传感器，配合黑白胶带整体便宜、简单，但是信号很容易因为地面不平导致不稳、胶带易受灰尘、垃圾影响等，导致巡线不能很稳定；视觉可视范围大，对线的要求不高，但是很容易受光线影响，且视频采集处理卡价格不菲，采样频率不高；而目前国内外市面上最常见的AGV产品大多采用磁条导航。而磁条导航AGV虽然相对价格便宜，且运行也较为可靠，但是每次运行AGV需要铺设磁条，特别路径较长时，铺设工作量较大，路径过长时，磁条的成本会比较高，同时更换路线后，由于磁条底部粘性变弱，不能重复使用，磁条后期在水、碾压、磨损等条件下，维护较麻烦，而随着工业4.0和智能制造需求，因此市场上对一种使用更灵活、方便的AGV导航方法的研发是迫在眉睫。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提出一种AGV导航控制方法及系统。

本发明的技术方案包括一种AGV车导航控制方法，其特征在于，该方法包括：S10，为目标AGV车设定起始位置、目标位置及导航任务；S20，目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估，得到价值策略网络；S30，根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。

根据所述的AGV车导航控制方法，其中步骤S10具体包括：S11，为目标AGV车设定固定运动场所，其中场所还包括有其他多个AGV车；S12，根据所述目标AGV车的目标位置及首选速度矢量，确定导航的联合状态。

根据所述的AGV车导航控制方法，其中步骤S20通过群机交互模型进行深度强化学习技术并得到价值策略网络，所述群机交互模型包括交互模块、池化模块及规划模块，其中，所述交互模块用于模拟群机交互规则，并通过局部地图对群机交互进行编码，所述群机交互为多个AGV车的交互；所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量；所述规划模块用于评目标AGV车与其他AGV车的联合状态的值以进行导航。

根据所述的AGV车导航控制方法，其中交互模块具体包括：构建局部地图，所述局部地图包括以每个AGV车i为中心的地图张量M_i来编码邻居AGV车的存在和速度矢量_，其中_，

其中w′_j＝(v_xj,v_yj,1)为其他AGV车j的局部状态向量，δ_mn[x_j-x_i,y_j-y_i]为指标函数，N_i是第i个AGV车i^th周围的邻近AGV车的集合；使用多层感知器将其他AGV车i的状态、地图张量M_i以及机器人的状态嵌入到固定长度矢量e_i中，具体为e_i＝φ_e(s,w_i,M_i,W_e)，其中φ_e(·)是具有ReLU激活的嵌入函数，W_e是嵌入权重，嵌入向量e_i被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征h_i＝ψ_h(e_i,W_h)，其中ψ_h(·)是具有ReLU非线性的完全连接层，W_h是网络权重。

根据所述的AGV车导航控制方法，其中池化模块具体包括：

通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响，包括：将交互嵌入e_i被转换为注意分数a_i，转换方式为

及a_i＝ψ_a(e_i,e_m,W_a)，其中e_m是通过平均汇集所有AGV个体获得的固定长度嵌入向量，ψ_a是具有ReLU激活的多层感知器，W_a是权重；给定成对交互向量h_i和每个AGV车i的对应关注度得分α_i，群体c的最终表示是所有对的加权线性组合：

根据所述的AGV车导航控制方法，其中规划模块具体包括：通过v估计合作规划的状态值，其中v＝f_v(s,c,W_v)，其中f_v(·)是具有ReLU激活的多层感知器，权重由W_v表示。

根据所述的AGV车导航控制方法，其中步骤S30具体包括：设s_t表示机器人的状态，

表示其他机器人在时间t的状态，机器人导航的联合状态定义为

最优政策

则最大化的预期收益为

其中

其中，

是在时间t收到的奖励，γ∈(0,1)为折扣因子，V*是最优值函数，

是从时间t到时间t+Δt的转移概率，dt是机器人和其他机器人在时间段[t-Δt，t]之间的最小间隔距离。

本发明的技术方案还包括一种AGV车导航控制系统，用于上述任一所述方法，其特征在于：设定模块，用于为目标AGV车设定起始位置、目标位置及导航任务；深度强化学习模块，对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估，得到价值策略网络；收益预期模块，用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。

本发明的有益效果为：提高AGV的导航效率。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1所示为根据本发明实施方式的系统框图；

图2所示为根据本发明实施方式的总体流程图；

图3所示为根据本发明实施方式的交互模块示意图；

图4所示为根据本发明实施方式的规划模块及池化模块示意图；图5所示为根据本发明实施方式的池模块的体系结构图；

图6所示为根据本发明实施方式的详细流程图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

图1所示为根据本发明实施方式的系统框图。该系统包括：设定模块，用于为目标AGV车设定起始位置、目标位置及导航任务；深度强化学习模块，对目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估，得到价值策略网络；收益预期模块，用于根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。

图2所示为根据本发明实施方式的总体流程图。该流程包括：S10，为目标AGV车设定起始位置、目标位置及导航任务；S20，目标AGV车根据起始位置和目标位置通过深度强化学习方法计算并进行评估，得到价值策略网络；S30，根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益。

基于图2，具体提出以下实施方式：

提出一个导航任务，其中机器人通过一群其他机器人向目标移动。这可以表述为强化学习框架中的顺序决策问题。对于每个agent(机器人)，其他人可以观察到位置P＝[p_x,p_y]，速度矢量V＝[v_x,v_y]和半径r。机器人也意识到其不可观察的状态，包括目标位置P_g和首选速度矢量V_pref。我们假设机器人vt的速度矢量可以在动作命令后立即实现a_t,i.e.,v_t＝a_t。设s_t表示机器人的状态，

表示其他机器人在时间t的状态。机器人导航的联合状态定义为

最优政策

是最大化的预期收益：

其中，

其中，

是在时间t收到的奖励，γ∈(0,1)是一个折扣因子，V*是最优值函数，

是从时间t到时间t+Δt的转移概率。优选速度矢量V_pref用作折扣因子中的归一化项。根据奖励函数的制定，在奖励碰撞或不舒服的距离的同时奖励任务成就，

其中dt是机器人和其他机器人在时间段[t-Δt，t]之间的最小间隔距离。

图3所示为根据本发明实施方式的模块连接示意图。价值策略网络由时间差分方法训练，具有标准经验重放和固定目标网络技术。如算法(1)中所述，首先使用一组演示经验通过模仿学习初始化模型，然后根据交互经验进行细化。与之前的工作的一个区别是下一个状态

是通过查询环境真实值而不是用线性运动模型逼近来获得的，从而减轻了系统动力学的问题。训练。在部署期间，转移概率可以通过轨迹预测模型来近似。

为了有效地解决问题(1)，价值策略网络模型需要准确地近似隐含地编码代理之间的社会合作的最优值函数V*。之前在此轨道上的作品并没有完全模拟人群交互，这降低了人口稠密场景的价值估计的准确性。在接下来的部分中，我们将介绍一种新颖的群机交互模型，该模型可以有效地学习导航进入的空间。

我们设计一个模型，该模型可以计算相对重要性并编码邻近代理对社会兼容导航的集体影响。受社会统筹和注意力模型的启发，我们引入了一个由三个模块组成的社交关注网络：

交互模块：明确地模拟群机交互，并通过大致地局部地图编码群机交互。

池化模块：通过自注意机制将交互聚合到固定长度的嵌入向量中。

规划模块：估计机器人和其他机器人的联合状态的值以进行导航。

由3个模块组成，机器人和每个机器人之间的交互从交互模块中提取并随后在交互模块中聚合。计划模块估计机器人和其他机器人的联合状态的值以用于导航。

参数：以机器人为中心的参数化，其中机器人位于原点，x轴指向机器人的目标。在变换之后，机器人的状态和行走的人是：

s＝[d_g,v_pref,v_x,v_y,r],

w_i＝[p_x,p_y,v_x,v_y,r_i,d_i,r_i+r],(3)

其中d_g＝||p-p_g||₂是机器人到目标的距离，而是d_i＝||p-p_i||₂机器人与相邻的物体i的距离。

图4所示为根据本发明实施方式的交互模块示意图。每个机器人都对目标机器人产生影响，同时受到他/她邻近机器人的影响。对其他机器人之间的所有相互作用进行显式建模会导致O(N2)复杂性[14]，这对于在密集场景中扩展的策略而言在计算上是不可取的。我们通过引入成对交互模块来解决这个问题，该模块明确地模拟群机交互，同时使用局部地图作为群机交互的大致表示。

给定大小为L的邻域，我们构造一个以每个机器人人i为中心的L×L×3地图张量M_i来编码邻居的存在和速度矢量，在图3中称为局部地图：

M_i(a,b,:)＝∑δ_ab[x_j-x_i,y_j-y_i]w′_j, (4)

其中

是其他机器人j的局部状态向量，δ_mn[x_j-x_i,y_j-y_i]是一个指标函数，只有相对位置(Δx,Δy)位于单元格(a，b)中才等于1，N_i是第i个机器人i^th周围的邻近机器人集合。

我们使用多层感知器(MLP)将其他机器人i的状态和地图张量M_i以及机器人的状态嵌入到固定长度矢量e_i中：

e_i＝φ_e(s,w_i,M_i；W_e), (5)

其中φ_e(·)是具有ReLU激活的嵌入函数，W_e是嵌入权重。

嵌入向量e_i被馈送到随后的MLP以获得机器人和其他机器人i之间的成对交互特征：

h_i＝ψ_h(e_i；W_h), (6)

其中ψ_h(·)是具有ReLU非线性的完全连接层，W_h是网络权重。

图4所示为根据本发明实施方式的规划模块及池化模块示意图。

包括使用多层感知器来提取机器人和其他机器人i之间的成对交互特征。

由于周围机器人的数量可以在不同的场景中大幅变化，我们需要一个能够处理固定大小输出的任意数量输入的模型.Everett等。建议按照它们到机器人的距离的降序顺序将所有机器人的状态送入LSTM。然而，最接近的邻居影响最大的基本假设并不总是正确的。一些其他因素，例如速度矢量和方向，对于正确估计邻居的重要性也是必不可少的，这反映了该邻居可能如何影响机器人的目标获取。利用自注意机制的最新进展，通过查看序列中的其他项目获得序列中项目的注意力，我们提出了一个池化模块了解每个邻居的相对重要性以及机群以数据驱动方式的集体影响。

池化模型：

交互嵌入e_i被转换为注意分数a_i如下：

a_i＝ψ_a(e_i,e_m；W_a), (8)

其中e_m是通过平均汇集所有个体获得的固定长度嵌入向量，ψ_a是具有ReLU激活的MLP，W_a是权重。

给定成对交互向量h_i和每个邻居i的对应关注度得分α_i，群体的最终表示是所有对的加权线性组合：

规划模块

基于群机c的紧凑表示，构建了一个规划模块，用于估计合作规划的状态值v：

v＝f_v(s,c；W_v), (10)

其中f_v(·)是具有ReLU激活的MLP，权重由W_v表示。

使用多层感知器从单个嵌入向量和平均嵌入向量计算每个机器人的注意力得分。最终的联合表示是成对相互作用的加权和。

图5所示为根据本发明实施方式的池模块的体系结构图。其交互参考图4中的池化模型及规划模块。

图6所示为根据本发明实施方式的详细流程图。包括以下流程：

S61，为目标AGV车设置固定场所；

S62，给目标AGV车任意一个当前状态，设定位置，并发出执行的指令；

S63，由于机器人需要以最快捷的速度矢量到这目标位置，因此机器人需要通过深度强化学习方法对所有可能做出的动作进行计算和估值，以获取奖励，以此形成价值策略网络，价值策略网络由时间差分为法训练；

S64，建主模仿学习初始化模型，寻找多种能到这目标位置的方法，设置在不同状态下的训练，使得数据被观测到的概率为最大，在部署期间，转移概率可以通过轨迹预测模型来近似；

S65，建主群机交互模型有效细化学习导航进入的空间，选择最优方法；

S66，交互模块：明确地模拟群机交互，并通过大致地局部地图编码群机交互；

S67，池化模块：通过自注意机制将交互聚合到固定长度的嵌入向量中；

S68，规划模块：估计器人和其他机器人的联合状态的值以进行导航；

S69，达到大化的预期收益。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种AGV车导航控制方法，其特征在于，该方法包括：

S10，为目标AGV车设定起始位置、目标位置及导航任务；

S20，目标AGV车根据起始位置和目标位置通过群机交互模型进行深度强化学习方法计算并进行评估，得到价值策略网络；

S30，根据价值策略网络确认AGV车从起始位置抵达目标位置的最大化预期收益；

其中，所述步骤S10具体包括：

S11，为目标AGV车设定固定运动场所，其中场所还包括有其他多个AGV车；

S12，根据所述目标AGV车的目标位置及首选速度矢量，确定导航的联合状态；

所述步骤S20通过群机交互模型进行深度强化学习方法并得到价值策略网络，所述群机交互模型包括交互模块、池化模块及规划模块，其中，

所述交互模块用于模拟群机交互规则，并通过局部地图对群机交互进行编码，所述群机交互为多个AGV车的交互；

所述池化模块用于通过自注意机制将交互聚合到固定长度的嵌入向量；

所述规划模块用于评估目标AGV车与其他AGV车的联合状态的值以进行导航；

其中，所述交互模块具体包括：

构建局部地图，所述局部地图包括以每个AGV车i为中心的地图张量M_i来编码邻居AGV车的存在和速度矢量，其中，

其中w′_j＝(v_xj,v_yj,1)为其他AGV车j的局部状态向量，δ_ab[x_j-x_i,y_j-y_i]为指标函数，N_i是第i个AGV车i^th周围的邻近AGV车的集合；

使用多层感知器将其他AGV车i的状态、地图张量M_i以及AGV车的状态嵌入到固定长度矢量e_i中，具体为e_i＝φ_e(s,w_i,M_i,W_e)，其中φ_e(·)是具有ReLU激活的嵌入函数，W_e是嵌入权重，嵌入向量e_i被馈送到随后的多层感知器以获得目标机AGV和其他AGV之间的成对交互特征h_i＝ψ_h(e_i,W_h)，其中Ψ_h(·)是具有ReLU非线性的完全连接层，W_h是网络权重；

所述池化模块具体包括：通过池化模型完成了解每个相邻AGV车的相对重要性以及机群以数据驱动方式的集体影响，包括：将交互嵌入e_i被转换为注意分数a_i，转换方式为