CN117873118B

CN117873118B - 一种基于sac算法与控制器的仓储物流机器人导航方法

Info

Publication number: CN117873118B
Application number: CN202410269246.2A
Authority: CN
Inventors: 秦家虎; 童思捷; 刘轻尘; 秦健敏; 马麒超; 江子川
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-05-28
Anticipated expiration: 2044-03-11
Also published as: CN117873118A

Abstract

本发明涉及机器人导航技术领域，公开了一种基于SAC算法与控制器的仓储物流机器人导航方法，将传感器数据输入到神经网络，输出避障动作；神经网络的训练过程包括：计算出各个障碍物与机器人之间的相对距离和相对速度；将障碍物与机器人的相对距离和相对速度作为机器人的状态；将状态分别输入到SAC算法和安全控制器，得到混合策略，根据混合策略得到当前时刻的动作，供机器人执行；将上一时刻的状态，以及当前时刻的状态、奖励、动作组成经验参数放入经验回放池；在经验回放池中随机抽取经验参数，对SAC算法的神经网络进行训练。安全控制器能够有效地指导强化学习过程，降低碰撞率，加速神经网络的收敛。

Description

一种基于SAC算法与控制器的仓储物流机器人导航方法

技术领域

本发明涉及机器人导航技术领域，具体涉及一种基于SAC算法与控制器的仓储物流机器人导航方法。

背景技术

在移动机器人从起始点到达目标点的过程中，不仅需要能够规划出合理的路径，还需要能够在执行规划路径的过程中避免障碍物。在仓储环境下，这些障碍物包括货架上的杂物、地面堆放的物品，以及工作中的移动工人，使得仓储环境变得复杂而具有挑战性。因此，解决在这种包含静态和动态障碍物的复杂环境中的安全导航问题一直以来都备受工业界和学术界的关注。

自上世纪以来，人们提出了各种路径导航算法，包括人工势场法、快速扩展随机数等经典传统算法以及它们的改进方法，这些方法一直在机器人导航领域中得到广泛应用。近年来，强化学习作为一个研究热点已经被广泛用于机器人的导航。与传统算法相比，强化学习算法具有以下优点：它们适用于非确定性环境，并且具有自主学习的能力。此外，强化学习还具有适应性和泛化能力。

然而，强化学习算法在面对动态障碍物时存在两个普遍问题，一个是对周围环境的获取精确度要求较高，导致对机载传感器的精度要求高，机载传感器所需功耗大。另一方面是训练中和训练完成后的策略很难保证移动机器人在路径导航时总能成功避开障碍物。这也就意味着在实际机器人的训练和应用中，安全性仍然是一个存在挑战的问题。

发明内容

为解决上述技术问题，本发明提供一种基于SAC算法的仓储物流机器人的安全导航方法，用于提高物流机器人在仓储复杂环境下的导航安全性，同时减少对机载传感器精确度的要求。

为解决上述技术问题，本发明采用如下技术方案：

一种基于SAC算法与控制器的仓储物流机器人导航方法，将实时采集的传感器数据，输入到部署在机器人上的完成训练的神经网络，输出使机器人进行避障的动作；神经网络的训练过程包括：

步骤一，由机器人车载传感器获取传感器数据；所述传感器数据包括机器人的速度、机器人的几何中心位置/>、目标点位置/>、第i个障碍物的几何中心位置/>、第i个障碍物的速度/>；并计算出各个障碍物与机器人之间的相对距离和相对速度；障碍物与机器人之间的相对距离，是指机器人的几何中心位置p与障碍物的几何中心位置/>之间的相对距离，且为矢量；障碍物与机器人之间的相对速度，是指机器人的几何中心位置p与障碍物的几何中心位置/>之间的相对速度；

步骤二，将障碍物与机器人之间的相对距离和相对速度作为机器人当前时刻的状态；

步骤三，将状态分别输入到SAC算法和安全控制器，得到混合策略/>，根据混合策略/>得到当前时刻的动作/>，供机器人执行，具体包括：

安全控制器根据状态、机器人的几何中心位置/>与目标点位置/>之间的距离、机器人的几何中心位置/>与第i个障碍物的几何中心位置/>之间的距离，以及机器人速度和第i个障碍物速度之间的夹角，计算得到各个障碍物对机器人的权重向量的合向量/>，将合向量/>的方向作为策略/>；将状态/>输入到SAC算法的神经网络，输出策略/>；随机生成一个0到1之间的随机数/>，并将/>和随神经网络训练过程从1到0递减的策略决定因子/>进行比较，当/>时，混合策略/>采用策略/>，则动作/>使机器人沿策略/>对应的方向运动；当/>时，混合策略/>采用策略/>，则动作/>为机器人加速度/>以及与机器人当前行进方向的偏向角/>；

根据状态和动作/>计算得到当前时刻的奖励/>；SAC算法所采用的神经网络包括Q评论家网络、V评论家网络、目标Q评论家网络、目标V评论家网络以及演员网络；

步骤四，将上一时刻的状态，以及当前时刻的状态/>、奖励/>、动作/>组成经验参数/>放入经验回放池/>；

步骤五，在经验回放池中随机抽取经验参数，对SAC算法的神经网络进行训练，更新所述神经网络的参数，包括Q评论家网络的参数/>、V评论家网络的参数、目标Q评论家网络的参数/>、目标V评论家网络的参数/>以及演员网络的参数/>；

步骤六，循环执行步骤一至步骤五，直至训练次数达到设定的最大训练次数，得到完成训练的神经网络。

进一步地，步骤三中，所述安全控制器根据状态、机器人的几何中心位置/>与目标点位置/>之间的距离、机器人的几何中心位置/>与第i个障碍物的几何中心位置/>之间的距离，以及机器人速度和第i个障碍物速度之间的夹角，计算得到各个障碍物对机器人的权重向量的合向量/>，具体包括：

；

其中，表示第i个障碍物对机器人的权重向量，所述权重向量/>的方向为第i个障碍物几何中心位置到机器人的几何中心位置的连线方向；/>、/>分别表示第一预设距离和第二预设距离；/>、/>分别为预设的第一目标点影响系数和第二目标点影响系数，分别决定了在/>和/>两种情况下目标点对于合向量的影响；/>为预设的障碍物排斥系数；/>为预先设置的常数；/>为含/>的多次项，/>表示机器人速度和第i个障碍物速度之间的夹角；/>为障碍物的总数量；/>表示机器人几何中心位置/>与第i个障碍物几何中心位置/>的距离，/>表示2范数；安全控制器输出的合向量/>为各个障碍物对机器人的权重向量/>的矢量和。

进一步地，步骤四中，所述将上一时刻的状态以及当前时刻的状态/>、奖励/>、动作/>组成经验参数/>放入经验回放池/>，具体包括：

经验回放池包括第一经验回放池/>、第二经验回放池/>、第三经验回放池/>和第四经验回放池/>；

如果机器人的几何中心位置与最近障碍物的几何中心位置的距离小于，则判断动作/>是否为通过策略/>生成的，如是，则将经验参数/>放入第一经验回放池/>，如否，则将经验参数/>放入第二经验回放池/>；

如果机器人的几何中心位置与最近障碍物的几何中心位置的距离大于或者等于，则判断动作/>是否为通过策略/>生成的，如是，则将经验参数/>放入第三经验回放池/>，如否，则将经验参数/>放入第四经验回放池/>；

步骤五，所述在经验回放池中随机抽取经验参数，具体包括：

当时，从/>、/>、/>和/>中抽取经验参数的比例依次为：0.05、0.05、0.85、0.05；

当时，从/>、/>、/>和/>中抽取经验参数的比例依次为：0.1、0.1、0.3、0.5；

当时，从/>、/>、/>和/>中抽取经验参数的比例依次为：0.02、0.06、0.02、0.90。

进一步地，所述机器人车载传感器包括雷达；

所述为含/>的多次项，具体包括：

；

其中，为在雷达延迟更新时间/>内、机器人与第i个障碍物的绝对安全距离：

。

进一步地，所述随神经网络训练过程从1到0递减的策略决定因子，具体计算方式包括：

。

与现有技术相比，本发明的有益技术效果是：

1.本发明提出了一种创新的安全控制器，在强化学习SAC算法的训练过程中发挥关键作用，它能够有效地指导强化学习过程，有效降低在仓储环境下SAC算法在训练过程中的碰撞率，加速神经网络的收敛，提高训练效率，并在神经网络收敛后进一步增强导航的安全性。

2.本发明提出了一种经验回放池分类存储采样的方法，在训练时，将产生的样本，根据采用的策略以及安全与否分成不同的经验回放池存储。根据训练前期、中期、后期产生不同种类的样本数量的特点在不同经验回放池提取不同比例的样本，实现了对样本更高效的利用，从而提高了训练速度，并防止了训练过程中过拟合现象的出现。

3.本发明基于soft-actor-critic（SAC）的强化学习算法，引入了一种划分状态空间的新方法，与安全控制器相结合，降低了对机载传感器精度的要求，从而节省了经济成本和功耗。

附图说明

图1为本发明的基于SAC算法与控制器的仓储物流机器人导航方法的流程示意图；

图2为本发明的基于SAC算法与控制器的仓储物流机器人导航方法的训练时的算法流程示意图；

图3为本发明提出的actor网络的网络结构图；

图4为本发明提出的Q-critic网络、V-critic网络、目标Q-critic网络、目标V-critic网络的网络结构图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，本发明中的一种基于SAC算法与控制器的仓储物流机器人导航方法，包括以下步骤：

步骤A：通过在SAC算法的训练过程中加入安全控制器辅助训练，能够快速地降低训练期间机器人与动态障碍物碰撞的概率，最后训练出的神经网络能够实现避免机器人与静态障碍物、动态障碍物发生碰撞；

步骤B：将训练后的神经网络部署到机器人上，仅通过神经网络输出的动作操控机器人避开障碍物，到达目标点。

步骤A具体包括：

步骤A1：由机器人车载传感器获取移动机器人本身的信息（包括机器人速度v和机器人的几何中心位置p）以及周围的环境信息（目标点位置、传感器检测到的障碍物几何中心位置/>、障碍物速度/>），并得出各个障碍物和移动机器人之间的相对距离和相对速度；/>为障碍物的总数量。

障碍物与机器人之间的相对距离，是指机器人的几何中心位置p与障碍物的几何中心位置之间的相对距离。障碍物与机器人之间的相对速度，是指机器人的几何中心位置p与障碍物的几何中心位置/>之间的相对速度。相对距离为矢量。

步骤A2：将步骤A1获取的各个障碍物和移动机器人之间的相对距离和相对速度、机器人和目标点位置的距离作为状态s。

步骤A3:通过SAC算法和安全控制器的共同决策选择下一个动作a，供机器人执行；

步骤A4：根据状态s获得奖励r，并将当前时刻和上一时刻的状态s、动作a和奖励r存储到经验回放池D中。

步骤A5：分别更新Q评论家（Q-critic）网络的参数、V评论家（V-critic）网络的参数/>，根据/>、/>去更新目标Q-critic网络的参数/>，V-critic网络的参数/>，更新演员（actor）网络的参数/>。

训练前进行如下设置：最大训练次数，将训练次数记为/>并初始化，训练前初始化参数/>和/>，并在训练过程中根据参数/>、/>去更新参数/>和/>；训练前生成一个初始值为1的策略决定因子/>，/>会随着训练递减，在训练次数/>达到时变为0，之后保持为0：

；

循环进行步骤A1至A5，直至训练次数达到设定的最大训练次数/>。

本发明通过引入安全控制器来增强SAC算法的训练过程。安全控制器通过对各个障碍物进行受力计算并输出策略，使得在训练的早期阶段，机器人能够采取更加有效的策略。相较于仅依赖强化学习本身，在训练的初期，神经网络广泛采用来自安全控制器的输出策略，从而使神经网络在训练期间能够获得更高的奖励值，加速了策略的学习速度。此外，在训练早期，强化学习可以快速拥有较好的探索方向，这样让Q-critic网络参数、V-critic网络参数/>、目标Q-critic网络参数/>、目标V-critic网络参数/>和actor网络参数/>收敛的速度得到加快。最终，一旦训练完成，强化学习策略在面对静态障碍物和动态障碍物的场景中将表现出极高的安全性。此外，通过结合安全控制器的状态空间选择方法，降低了对机载传感器获取的周围和自身环境信息精度的要求。之后将训练完成的神经网络部署到机器人上，通过神经网络输出对应的策略（即状态-动作映射关系）来操控机器人避开静态障碍物和动态障碍物，从而到达目标点。

如图2所示，整个算法的流程如下：

首先使用机载传感器捕捉机器人自身的速度和位置，以及周围每个障碍物的速度和位置，以获取后续状态空间所必要的参数。

使用坐标变化方法将传感器采集的数据转化到同一个坐标系中，使用计算机器人当前的几何中心和障碍物的相对距离，使用/>(其中i=1，2，3…）计算机器人与各个障碍物的相对速度。

把得到的相对距离和相对速度作为状态输入到安全控制器和神经网络中。安全控制器得到输入状态后计算合向量，将合向量的方向作为策略输出；本发明中的权重向量指的是：对于每一个障碍物，安全控制器会根据障碍物与机器人两者的几何中心位置的相对距离和相对速度，给定机器人一个权重向量，是安全控制器根据相对距离和相对速度映射出来的一个向量。

另一方面，把状态作为神经网络的输入进行处理。图3为actor网络的结构图，共有四层网络。actor网络首先将状态s作为输入，然后通过三个全连接层和三个RELU激活层进行交叉处理，输入单元的数量依次为32、128和128。这些全连接层的参数会在训练中进行优化，以使actor网络能够学习从状态到动作的映射关系（也称为策略）。这有助于确定在给定状态下应采取哪些动作，以最大化预期的累积奖励。同时，ReLU函数是一种常用于神经网络隐藏层的激活函数，其作用是引入非线性特性，使网络能够学习复杂的函数关系。ReLU函数将所有负数的值设为零，保留正数值，从而有助于网络学习非线性策略。最后，经过最后一层全连接层后，actor网络输出动作分布的均值和标准差。图4展示了SAC算法的Q-critic网络、V-critic网络以及目标Q-critic网络和目标V-critic网络的结构，输入为状态-动作对，通过一个全连接层后，输入单元数量变为64，并应用了RELU激活函数。接下来，经过第二个全连接层、第三个全连接层和两个RELU激活函数，输入单元数量依次增至512和1024。最后，通过第四个全连接层，输出对状态-动作对的评估值Qsoft(s,a)。critic网络的全连接层用于估计奖励值，以指导actor网络选择动作。同时，ReLU激活函数用于增加网络的非线性建模能力，以更好地适应环境的复杂性和动态性。

随机生成一个0到1之间的随机数，并将/>和随训练过程从1到0逐渐递减的数/>进行比较，当/>时，采用安全控制器的输出策略/>，当/>时采用神经网络的输出策略。这样，在强化学习训练的早期，/>接近于1，而/>是随机生成的0和1之间的数，因此在大多数情况下满足/>，机器人广泛采取安全控制器的策略输出，使得强化学习在一开始能够获得较好的奖励函数，所更新迭代的网络参数也更加合理。而在强化学习训练的后期，强化学习已经形成了较安全控制器更好的策略时，迭代次数/>越来越大，/>接近于0或者等于0，而/>是随机生成的0和1之间的数，因此在大多数情况下满足/>，机器人广泛采取强化学习本身的策略输出，可进一步获得更好的奖励函数，探索出更好的策略。

将选取的动作、上一个状态/>、当前的状态/>、采取动作/>所获得的奖励/>，存储到经验回放池D中。

从经验回放池D中抽取批数据进行训练，批数据（Batch_size）的规模为预先设置好的值，并更新神经网络参数。从经验回放池提取数据，可以反复使用相同的数据样本，提高数据的利用率。此外，一方面在某些情况下，一些状态-动作对组合可能会很罕见，导致模型对这些情况学习不足，从而提高了算法对所有可能的状态和动作的泛化能力。另一方面，经验回放池存储了先前的经验，包括状态、动作、奖励等信息，通过从回放池中随机抽取样本进行训练，可以减少训练数据中的样本相关性，有助于平滑和稳定训练过程，从而防止训练过程中的不稳定性，提高了算法的收敛性。

具体地，经验回放池包括第一经验回放池/>、第二经验回放池/>、第三经验回放池/>和第四经验回放池/>。

将导致机器人的几何中心位置与最近障碍物的几何中心位置的距离小于的经验参数称为不安全样本，其余经验参数称为安全样本。安全控制器输出的策略所对应的不安全样本放入/>，SAC算法输出的策略所对应的不安全样本放入/>。安全控制器输出的策略所对应的安全样本放入/>，SAC算法输出的策略所对应的安全样本放入/>。具体如下：

如果机器人的几何中心位置与最近障碍物的几何中心位置的距离大于或者等于，则判断动作/>是否为通过策略/>生成的，如是，则将经验参数/>放入第三经验回放池/>，如否，则将经验参数/>放入第四经验回放池/>。

根据采用的策略以及安全与否，将样本分到不同的经验回放池中存储，方便后续根据样本分类来抽取不同比例的样本加以训练，以达到加快训练和避免训练过拟合的目的。

在经验回放池中随机抽取经验参数时，具体包括：

当训练次数时，处于训练初期，安全控制器输出的策略的安全性较高，所以从/>采样的比例最高，从/>、/>、/>和/>中抽取经验参数的比例依次为：0.05、0.05、0.85、0.05；

当训练次数时，处于训练中期，随着训练的进行，SAC算法输出的策略的安全性增加，从/>采样的比例增加，从/>、/>、/>和/>中抽取经验参数的比例依次为：0.1、0.1、0.3、0.5；

当训练次数时，处于训练后期，产生的样本大多数为SAC算法输出策略对应的安全样本，为了防止神经网络过拟合，还保留一部分不安全样本加以训练；从/>、、/>和/>中抽取经验参数的比例依次为：0.02、0.06、0.02、0.90。

从不同的经验回放池中按比例抽取样本进行训练，可以反复使用相同的样本，提高数据的利用率。在不同训练时期从不同的经验回放池中采取不同的比例抽取样本进行训练，一方面使样本的分布更加合理，避免了抽取样本同质化，从而加快了学习速度。尤其在训练后期依然抽取一定的不安全样本来学习，避免了SAC算法产生的安全样本过多导致抽取不到不安全的样本，从而使SAC减弱了学习的速度，也防止了训练的过拟合。

具体地，所述安全控制器的作用和结构如下：

安全控制器会为雷达扫描范围内的每个障碍物赋予一个权重向量，权重向量的方向为障碍物几何中心位置到机器人的几何中心位置的连线方向；计算每个障碍物产生的权重向量的矢量和，得到安全控制器输出的合向量；具体公式如下：

；

其中，表示第i个障碍物对机器人的权重向量，/>、/>、/>、/>、/>、/>为预先设置的常数，具体来说，/>、/>分别表示第一预设距离和第二预设距离；/>、/>分别为预设的第一目标点影响系数和第二目标点影响系数，分别决定了在/>和两种情况下目标点对于合向量的影响；/>为预设的障碍物排斥系数，/>越大说明障碍物的排斥作用越强。上述常数为本领域的技术人员根据工况预先设置的，设置时可以参考以下标准：当对安全性的要求提高后，为了扩大安全控制域，/>以及/>变大，此时为了加强障碍物对机器人的排斥作用，/>也变大；/>、/>为正数，对安全性要求变高时和/>变小，从而减弱目标点对于/>的影响，强化障碍物对机器人的权重向量的影响。常数/>为一个绝对值非常大的负数，以保证机器人周围存在距离不足/>的障碍物时，安全控制器会直接做出远离障碍物方向的策略。

中，/>为机器人速度和第i个障碍物速度之间的夹角，/>为含/>的多次项。最终，安全控制器给出的合向量/>为各个障碍物的权重向量/>之合。

具体地，的计算方法为：

；

。

具体地，SAC算法的状态s的设置如下：

；

其中，为各个障碍物和机器人的相对距离（可以存在一定误差），/>为每个障碍物与机器人的大致相对速度（可以存在一定误差）。

具体地，SAC算法的神经网络的网络结构如下：

对于评论家（critic）网络，使用了一个Q-critic网络和一个V-critic网络，除此之外还使用了一个目标Q-critic网络和一个目标V-critic网络，四个critic网络的体系结构均相同。每个评论家网络由四个层组成：第一层有64个单元来接收状态和动作，第二层和第三层分别有512、1024个单元的隐藏层，第四层的输出作为对状态-动作对的评估。

演员（actor）网络，分为四层：第一层有32个单元来接收状态，第二层和第三层为具有128个单元的隐藏层，第四层输出动作分布的均值和标准差。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于SAC算法与控制器的仓储物流机器人导航方法，其特征在于，将实时采集的传感器数据，输入到部署在机器人上的完成训练的神经网络，输出使机器人进行避障的动作；神经网络的训练过程包括：

步骤五，在经验回放池中随机抽取经验参数，对SAC算法的神经网络进行训练，更新所述神经网络的参数，包括Q评论家网络的参数/>、V评论家网络的参数/>、目标Q评论家网络的参数/>、目标V评论家网络的参数/>以及演员网络的参数/>；

步骤六，循环执行步骤一至步骤五，直至训练次数达到设定的最大训练次数/>，得到完成训练的神经网络；

步骤三中，所述安全控制器根据状态、机器人的几何中心位置/>与目标点位置/>之间的距离、机器人的几何中心位置/>与第i个障碍物的几何中心位置/>之间的距离，以及机器人速度和第i个障碍物速度之间的夹角，计算得到各个障碍物对机器人的权重向量的合向量/>，具体包括：

；

其中，表示第i个障碍物对机器人的权重向量，所述权重向量/>的方向为第i个障碍物几何中心位置到机器人的几何中心位置的连线方向；/>、/>分别表示第一预设距离和第二预设距离；/>、/>分别为预设的第一目标点影响系数和第二目标点影响系数，分别决定了在/>和/>两种情况下目标点对于合向量的影响；/>为预设的障碍物排斥系数；/>为预设的常数；/>为含/>的多次项，/>表示机器人速度和第i个障碍物速度之间的夹角；/>为障碍物的总数量；/>表示机器人几何中心位置/>与第i个障碍物几何中心位置/>的距离，/>表示2范数；安全控制器输出的合向量/>为各个障碍物对机器人的权重向量/>的矢量和。

2.根据权利要求1所述的基于SAC算法与控制器的仓储物流机器人导航方法，其特征在于，步骤四中，所述将上一时刻的状态以及当前时刻的状态/>、奖励/>、动作/>组成经验参数/>放入经验回放池/>，具体包括：

如果机器人的几何中心位置与最近障碍物的几何中心位置的距离小于，则判断动作是否为通过策略/>生成的，如是，则将经验参数/>放入第一经验回放池/>，如否，则将经验参数/>放入第二经验回放池/>；

3.根据权利要求1所述的基于SAC算法与控制器的仓储物流机器人导航方法，其特征在于，所述机器人车载传感器包括雷达；

所述为含/>的多次项，具体包括：

；

。

4.根据权利要求1所述的基于SAC算法与控制器的仓储物流机器人导航方法，其特征在于，所述随神经网络训练过程从1到0递减的策略决定因子，具体计算方式包括：

。