CN116852347A

CN116852347A - 一种面向非合作目标自主抓取的状态估计与决策控制方法

Info

Publication number: CN116852347A
Application number: CN202310246700.8A
Authority: CN
Inventors: 黄成�; 曾权利
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-10-10

Abstract

一种面向非合作目标自主抓取的状态估计与决策控制方法，属于自主抓取领域。包括步骤：采集实时图像数据，采用YOLOv5算法实时检测非合作目标中心位置；采用PoseCNN算法实时估计姿态，形成非合作目标状态实时估计策略；建立由机械臂末端执行器(二指夹爪)和目标组成的自主抓取系统为马尔可夫决策模型；采用人类专家示范方式实现网络初始化训练并采集监督数据，存储状态‑动作数据对；构建目标函数、网络梯度和损失函数并设计共享特征提取单元及网络特征回归部分；利用监督数据训练Actor网络并进行抓取实验，实现自定义模型训练。本发明结合感知与自主决策，解决非合作目标状态估计的实时性和准确性平衡、复杂任务中难以形成自主决策及适应性差问题。

Description

一种面向非合作目标自主抓取的状态估计与决策控制方法

技术领域

本发明涉及自主抓取领域，具体涉及一种面向非合作目标自主抓取的状态估计与决策控制方法。

背景技术

单机械臂抓取一般采用一个机械臂及末端抓取工具的结构形式，根据被抓取目标能否提供导航信息，可以将其分为合作与非合作抓取两类任务。相比合作式情形，非合作目标抓取技术在空间服务、工业装配、物流分拣等领域具有更广阔的应用前景，但由于缺乏信息沟通也存在更大的挑战性。目前，通过相对制导方法非合作目标抓取任务已经实现自主化，即根据目标状态规划一条末端抓取工具的可行运动轨迹，通过逆运动学求解得到机械臂各个关节轨迹，进而实现机械臂自主抓取运动。然而随着应用任务数量的日益增长和应用任务类型的逐渐多样化，操作人员在回路及相对制导的控制方式需要大量人力及设备进行实时监控与指令上传，任务成本显著增加，而且这些方式存在机械臂与操作者之间具有通信时滞、机械臂作业效率和连续工作稳定性无法得到保证的问题。所以，发展机械臂对非合作目标的自主抓取已成为未来技术发展的必然趋势之一。

与远程操控、手动操作、自动控制等抓取方法相比，自主抓取方式不依赖于人为控制，完全由配套设备自主实现目标物体的位姿估计与抓取，能够降低资源消耗和技术风险，可以较好地解决传统操控方式难以解决的复杂问题，在空间服务、工业装配、物流分拣等领域具有更广阔的应用前景。尽管具有诸多优势，但非合作目标抓取任务的自主化存在计算复杂度过高、求解过程易发散等因素导致的实时性与最优性难以平衡问题已经成为制约其在面对非合作目标抓取任务应用中的瓶颈。

突破这一瓶颈的一种新思路是结合深度学习强大的感知能力和深度强化学习强大的自主决策能力，即提取目标物位姿特征并循环利用智能体与环境的交互训练所得数据特别是状态、动作及回报信息，基于非合作目标抓取的机械臂-环境耦合交互机理进行行为决策与控制，充分结合机器自主学习和随机环境数据丰富的双重优势，提高位姿识别、自主抓取的效率和成功率。为了完成自主抓取从传统操控及相对制导抓取方式到更具智能化自主抓取方式的跨越，需要突破系列的理论与技术难题。自主抓取的前提是实现对非合作目标的识别与位姿估计，现有的基于模板或模型匹配的位姿估计方法泛化能力和适应性较差，而基于端到端的位姿估计方法又存在实时性和准确性难以平衡问题，如何根据任务所进行的阶段，设计有效融合实时性和准确性的位姿估计方法，实现对目标运行状态的估计十分重要；非合作目标自主抓取的决策控制问题是一个多变量、强耦合的多解数学问题，现有的自主决策方法过度依赖人工智能算法，对环境和任务适应性差，如何充分模拟人的智能，建立具有类人自主决策能力的模型，实现关联人工控制与自主控制的自主决策是需要突破的关键问题。

发明内容

本发明解决的技术问题是：针对非合作目标机械臂自主抓取的状态信息获取方式缺少实时性和准确性以及自主化过程中计算复杂度过高、求解过程易发散的问题，提出一种面向非合作目标自主抓取的状态估计与决策控制方法，实现目标物的实时状态估计与自主行为决策、控制。

本发明的技术解决方案是：一种面向非合作目标自主抓取的状态估计与决策控制方法，步骤如下：

(1)采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测；

(2)采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略；

(3)建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型；

(4)采用人类专家示范方式实现用于Actor网络初始化训练的监督数据采集，存储状态-动作数据对；

(5)构建目标函数对Actor网络参数的梯度和Critic网络损失函数；

(6)设计共享的特征提取单元及各自的网络特征回归部分；

(7)利用监督数据训练行为网络、收集独立并行多智能体的交互数据以及进行非合作目标自主抓取实验，实现自定义决策与控制模型训练。

进一步地，所述自主抓取操控过程中采用六自由度机械臂，即六自由度控制方式，状态估计、自主抓取的流程为：首先对自定义的某一类别非合作目标优先选择注意维度，然后根据所学到的网络进行特征提取、深度信息计算、三维平移和旋转信息获取，随后选择优先自由度，根据所建模型学到的行为网络执行顺序操作消除控制误差及响应时间。

进一步地，所述步骤(1)中采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测的方法为：

a.标定出任务中指定类目标的可抓取区域数据集，使用官方加载的预训练权重进行训练，获得该类目标可抓取区域的检测权重；

b.输入端拟采用Mosaic数据增强、自适应锚框计算、自适应图片缩放的方式进行数据增强；

c.主干网络backbone上拟采用Focus结构和CSP结构进行特征提取，中间层Neck拟采用FPN+PAN的结构进一步对不同尺寸的目标进行特征提取；

d.输出端拟采用GIOU_Loss损失函数衡量所检测中心位置信息的准确性；

e.初始化检测模型参数时定义指定类目标的可抓取区域类别，利用相机内置参数计算目标与相机之间的距离作为深度信息，实时输出待抓取目标可抓取区域中心位置的三维平移信息。

进一步地，所述步骤(2)中采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略的方法为：

a.将YOLOv5算法特征提取阶段生成的信道维度为512的两个特征映射作为输入，通过软最大交叉熵损失训练语义标记分支，利用基于全卷积网络的语义分割获得具有原始图像大小的特征图，并生成像素的语义标记分数；

b.基于像素语义标记结果和可抓取区域中心位置三维平移信息采用Hough投票法预测可抓取区域边界框，在此基础上，拟利用两个ROI池化层对YOLOv5算法生成的特征信息进行裁剪和池化，并将合并后的特征映射添加到一起输入到三个全连接层中，最后一个全连接层输出的四元数组表示可抓取区域的三维旋转信息；

c.引入用于对称目标姿态估计的损失函数ShapeMacth-Loss训练四元数回归，解决在处理对称物体时因为出现多个groundtruth而导致的局部损失太大问题，利用迭代最近点算法细化可抓取区域姿态估计结果，进一步提高算法性能。

进一步地，所述步骤(3)中建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型的方法为：

a.状态空间：自主抓取系统的控制目的是保证二指电动夹爪与待抓取目标可抓取区域最后的接近精度(偏差距离、接近速度)在要求的范围之内，因此选夹爪最里侧夹取中心点相对于可抓取区域中心点位置上的三维偏移距离、夹爪相对于可抓取区域姿态上的三维偏移距离、夹爪的瞬时线速度和瞬时角速度来构建状态；

b.动作空间：以夹爪的瞬时线速度和瞬时角速度为控制量，选其加速度为动作；

c.奖励函数：为减少产生多余偏移量并避免碰撞、工作区无目标误动作的低质量决策行为，除了选择偏移距离、瞬时速度来设计奖励函数外，还引入偏移距离和瞬时速度组合项、端与端之间的包络项及工作区域项匹配奖惩项。

进一步地，所述步骤(4)中初始化训练Actor网络并采集监督数据，存储状态-动作数据对的方法为：

a.采用人类专家示范方式获取对Actor网络进行初始化训练的监督数据，利用基于Vortex动力学仿真环境搭建的半物理仿真平台，由操作人员产生动作控制虚拟环境中机械臂及二指电动夹爪进行动态非合作抓取作业，在操作过程中同时记录状态输入与人员操作，组成状态-动作数据对进行存储；

b.在行为网络输出端增加常规高斯噪声并引入基于状态距离的最近邻算法，计算当前交互状态与随机抽取一定数量样本状态的最小欧式距离值，通过对数函数将此值转换为内部回报，利用当前步所得外部回报值计算总回报值并替代原有单次交互所得回报值，提升对状态交互数据的探索与利用效率。

进一步地，所述步骤(5)中构建Actor网络参数的梯度、Critic网络损失函数以及更新迭代方式的方法为：

a.在深度确定性策略梯度算法中，确定Actor网络主要负责对二指电动夹爪当前状态数据进行特征提取和回归，输出连续动作，Critic网络负责根据当前状态下动作和传感输入，输出当前状态-动作对的价值；

b.利用异构确定性策略梯度理论及Bellman方程分别构建目标函数对Actor网络参数的梯度和Critic网络损失函数；

c.设立回放缓冲区和目标网络，在模型训练时，通过随机抽样缓冲区储存数据利用梯度、损失函数及目标网络与原网络之间更新公式训练神经网络；

d.为提升Critic目标网络损失曲线下降速率，构建包含三个目标网络的Critic目标集成网络，采用其输出的最小方差网络作为当前迭代的目标网络。

进一步地，所述步骤(6)中设计特征提取单元及网络特征回归部分的方法为：

a.设计共享的特征提取单元(FEU)提取特征回归部分所需有效特征，拟采用连续的两层卷积神经网络层对状态信息进行处理；

b.设计Actor网络特征回归部分，以FEU传递的特征为输入，拟通过两层全连接层进行特征回归，然后使用非线性激活函数(tanh函数)输出偏移控制量；

c.设计Critic网络特征回归部分，以Actor网络输出动作和FEU传递特征作为输入，拟使用一层全连接层处理动作信息并与特征进行合并，然后通过连续两层全连接层进行处理并输出动作值函数Q的值。

进一步地，所述步骤(7)中训练行为网络、收集多智能体交互数据以及进行非合作目标自主抓取实验的方法为：

a.利用监督数据在Tensorflow中对Actor网络进行训练，并以Actor网络预测输出与真值的欧式距离函数作为损失函数，训练收敛后，将获取的网络权重作为Actor网络初始权重；

b.建立动态非合作目标状态实时估计程序与自主抓取决策控制程序之间的通信机制，将集成后的功能模块迁移到实验室现有的协作机器人系统，通过开展自主抓取实验利用实验结果对状态实时估计模型参数进行修正，对决策控制模型进一步更新迭代。

与现有技术相比，本发明综合考虑了基于深度学习的非合作目标运行状态实时估计模型，通过深度相机采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测；基于可抓取区域的实时RGB-D图像，采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略；建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型；采用人类专家示范方式实现用于Actor网络初始化训练的监督数据采集，存储状态-动作数据对；构建目标函数对Actor网络参数的梯度和Critic网络损失函数；设计共享的特征提取单元及各自的网络特征回归部分；利用监督数据训练行为网络、收集独立并行多智能体的交互数据以及进行非合作目标自主抓取实验，实现自定义决策与控制模型训练。本发明利用深度学习强大的感知能力和深度强化学习强大的自主决策能力，即提取目标物位姿特征并循环利用智能体与环境的交互训练所得数据特别是状态、动作及回报信息，充分结合机器自主学习和随机环境数据丰富的双重优势，提高自主抓取的效率和成功率。

附图说明

为使得本发明中的技术方案更加直观明了，下面将会选取一些附图对本发明进行阐述。下述附图仅为本发明的一些实例；使用者可根据该附图获得其他类似的附图。其中：

图1为本发明的技术路线示意图。

具体实施方式

下面将更加深刻，完整的阐述本发明实施案例中的技术方案。所述实施案例为部分实施案例。使用者可根据本发明，不需付出创造性劳动的获得其他实施案例。该“其他实施案例”均属于本发明保护的范围。

如图1所示，一种面向非合作目标自主抓取的状态估计与决策控制方法，包括以下步骤：

(6)设计共享的特征提取单元及各自的网络特征回归部分；

根据本发明的一种实施方式，在自主抓取操控过程中采用六自由度机械臂，即六自由度控制方式，状态估计、自主抓取的流程为：首先对自定义的某一类别非合作目标优先选择注意维度，然后根据所学到的网络进行特征提取、深度信息计算、三维平移和旋转信息获取，随后选择优先自由度，根据所建模型学到的行为网络执行顺序操作消除控制误差及响应时间。

基于以上实施方式，在上述步骤(1)中采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测的方法为：

在上述步骤(2)中采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略的方法为：

在上述步骤(3)中建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型的方法为：

在上述步骤(4)中初始化训练Actor网络并采集监督数据，存储状态-动作数据对的方法为：

在上述步骤(5)中构建Actor网络参数的梯度、Critic网络损失函数以及更新迭代方式的方法为：

在上述步骤(6)中设计特征提取单元及网络特征回归部分的方法为：

在上述步骤(7)中训练行为网络、收集多智能体交互数据以及进行非合作目标自主抓取实验的方法为：

综上所述，本发明综合考虑了基于深度学习的非合作目标运行状态实时估计模型，通过深度相机采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测；基于可抓取区域的实时RGB-D图像，采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略；建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型；采用人类专家示范方式实现用于Actor网络初始化训练的监督数据采集，存储状态-动作数据对；构建目标函数对Actor网络参数的梯度和Critic网络损失函数；设计共享的特征提取单元及各自的网络特征回归部分；利用监督数据训练行为网络、收集独立并行多智能体的交互数据以及进行非合作目标自主抓取实验，实现自定义决策与控制模型训练。本发明利用深度学习强大的感知能力和深度强化学习强大的自主决策能力，即提取目标物位姿特征并循环利用智能体与环境的交互训练所得数据特别是状态、动作及回报信息，充分结合机器自主学习和随机环境数据丰富的双重优势，提高自主抓取的效率和成功率。

以上所述仅为本发明的一个实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，包括以下步骤：

(6)设计共享的特征提取单元及各自的网络特征回归部分；

2.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述自主抓取操控过程采用六自由度机械臂，即六自由度控制方式，状态实时估计、自主抓取的流程为：首先对自定义的某一类别非合作目标优先选择注意维度，然后根据所学到的网络进行特征提取、深度信息计算、三维平移和旋转信息获取，随后选择优先自由度，根据所学到的行为网络执行顺序操作消除控制误差及响应时间。

3.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(1)中采集待检测空间内实时图像视频数据，采用YOLOv5算法对待抓取的某一类动态非合作目标进行可抓取区域中心位置实时检测的方法为：

4.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，所述步骤(2)中采用PoseCNN算法进行可抓取区域姿态实时估计，形成面向自主抓取决策控制的动态非合作目标状态实时估计策略的方法为：

5.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(3)中建立由机械臂末端执行器(二指电动夹爪)和待抓取目标组成的自主抓取系统为马尔可夫决策模型的方法为：

6.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(4)中初始化训练Actor网络并采集监督数据，存储状态-动作数据对的方法为：

7.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(5)中构建梯度和损失函数的方法为：

c.设立回放缓冲区和目标网络，在模型训练时，通过随机抽样缓冲区储存数据利用梯度、损失函数及目标网络与主网络之间更新公式训练神经网络；

8.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(6)中设计特征提取单元及网络特征回归部分的方法为：

9.根据权利要求1所述的一种面向非合作目标自主抓取的状态估计与决策控制方法，其特征在于，所述步骤(7)中训练行为网络、收集多智能体交互数据以及进行非合作目标自主抓取实验的方法为：