CN111267083B

CN111267083B - 一种基于单双目摄像头结合的机械臂自主搬运系统

Info

Publication number: CN111267083B
Application number: CN202010170853.5A
Authority: CN
Inventors: 解仑; 周旭; 左利钢; 王志良; 王先梅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2022-01-04
Anticipated expiration: 2040-03-12
Also published as: CN111267083A

Abstract

本发明提供一种基于单双目摄像头结合的机械臂自主搬运系统，包括：语音交互模块，用于将用户的自然语言指令解析成对应的操作编码；图像采集模块，用于采集目标体所在场景的彩色图像信息和点云信息；数据处理模块，用于将接收到的操作编码转换为操作指令，并根据获取的彩色图像信息和点云信息，对障碍物位置进行分析及对目标体位置姿态进行估计和优化，生成轨迹信息；机械臂运动规划模块，用于将操作指令转换成控制指令，并根据控制指令和轨迹信息驱动七自由度机械臂运作；七自由度机械臂，用于执行相应操作并反馈关节角信息；可视化图形界面模块，用于展现机械臂周围的局部环境及机械臂实时的运动状态。本发明能够提高机械臂抓取精度。

Description

一种基于单双目摄像头结合的机械臂自主搬运系统

技术领域

本发明涉及机械臂控制技术领域，特别涉及一种基于单双目摄像头结合的机械臂自主搬运系统。

背景技术

随着科技的进步，尤其是对机器人技术至关重要的传感器技术、计算机技术、电子技术及人工智能技术的高速发展，人们已不再满足机器人在固定环境按照程序设定的功能进行重复的操作。为了使机器人能够安全有效地与人类一起操作，他们必须了解周围环境。这种意识的一个方面是知道场景中物体的3D位置和方向，通常称为6-DoF(自由度)姿态，这些知识对于执行对象的自主搬运即抓取、运输、放置非常重要，机器人只要知道工件在自己工作空间的准确位姿，便可以对该工件实施相应的操作。机械臂作为机器人的一种特殊形式，主要运用于自主搬运、焊接、组装等工作。因此研究一个物体的位姿计算方式，对机械臂的自主搬运具有重大意义。

人工智能的高速发展必定伴随着对各行各业的改造。以深度学习为代表的算法也在不断颠覆各种传统机器视觉算法，并且已经在环境感知方面有了显著的效果，虽然已经出现了仅基于深度学习的方法利用单目摄像头去估计物体的姿态，但是依旧遭受很多局限，如光照、遮挡。因此探索一种单双目结合的方法去估计目标体的位姿，可以更好的适应多变的环境、并有效提高目标体的姿态估计精度。

发明内容

本发明的目的在于提供一种基于单双目摄像头结合的机械臂自主搬运系统，利用深度信息和彩色图像信息的融合分析，来解决现有状况下机械臂搬运方案中存在的抓取不精确、障碍物遮挡等问题。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于单双目摄像头结合的机械臂自主搬运系统，包括：

语音交互模块，用于将用户的自然语言指令解析成对应的操作编码，并发送至数据处理模块；

图像采集模块，用于采集目标体所在场景的彩色图像信息和点云信息，并发送至数据处理模块；

数据处理模块，用于将接收到的操作编码转换为操作指令发送给机械臂运动规划模块，并根据获取的彩色图像信息和点云信息，对障碍物位置进行分析及对目标体位置姿态进行估计和优化，生成轨迹信息发送给机械臂运动规划模块；

机械臂运动规划模块，用于将接收到的操作指令转换成控制指令，并根据所述控制指令和所述轨迹信息驱动七自由度机械臂运作；

七自由度机械臂，用于根据所述控制指令和所述轨迹信息进行相应操作，并将关节角信息发送给所述数据处理模块；

可视化图形界面模块，用于根据所述数据处理模块中的彩色图像信息、点云信息和关节角信息展现机械臂周围的局部环境以及机械臂实时的运动状态。

优选地，所述语音交互模块包括：

语音处理单元，用于接收用户的自然语言指令，包括：用户唤醒设备语音指令、用户说出的机械臂具体操作语音指令，并转化为相应的数字信号；

语义理解单元，用于解析所述语音处理单元传来的数字信号，将用户的自然语言指令解析拆分成多个词典的组合，判断用户想要表达的操作，并对每种操作各生成一段md5码，发送给所述数据处理模块。

优选地，每个所述词典代表一个领域词的集合，所述词典包括：目标体所在地点构建的词典、目标体种类构建的词典、对目标体的操作构建的词典。

优选地，所述图像采集模块包括：

双目摄像机，安装于预设的固定位置，用于采集目标体所在场景的点云信息以及全景RGB彩色图像信息，并通过usb3.0接口交予所述数据处理模块进行分析；

单目摄像机，安装于机械臂末端，能够随着机械臂运动，用于采集目标体所在场景的局部彩色图像信息，并通过usb2.0接口交予所述数据处理模块进行分析。

优选地，所述数据处理模块包括：

语音指令解译单元，用于识别所述语音交互模块传来的操作编码，获悉用户想表达的具体操作，并转换为操作指令发送给机械臂运动规划模块；

彩色图像数据处理单元，用于根据获取的彩色图像信息对目标体进行分析，并通过深度学习策略计算出目标体在空间中的初步位置姿态；

点云数据处理单元，融合所述彩色图像数据处理单元的分析结果，用于计算目标体的质心并获悉其大体位置，计算障碍物的质心、尺寸以及优化由所述彩色图像处理单元估计出的目标体在空间中的初步位置姿态，得到最终位置姿态并生成轨迹信息交予所述机械臂运动规划模块；

可视化界面数据处理单元，用于将接收到的关节角信息、彩色图像信息、点云信息交予所述可视化图形界面模块。

优选地，所述深度学习策略为搭建轻量级卷积神经网络用于特征提取，根据相应的数据集，通过离线训练的方式，训练出能够由一张目标体二维彩色图像映射出其在三维空间姿态的网络；

所述数据集以三维仿真软件制作，包括物体在一定视角下的彩色图片，以及在该视角下的三维空间中包含物体的最小长方体八个角点和一个中心点在二维图片中的映射信息。

优选地，所述机械臂运动规划模块具体用于接收所述数据处理模块输出的目标体位置姿态信息、障碍物的空间位置和尺寸信息，进行逆运动学运算，在空间中规划出一条有效运动轨迹，生成轨迹信息发送至所述七自由度机械臂。

优选地，所述七自由度机械臂包括嵌入式驱动单元和机械臂关节，所述嵌入式驱动单元用于接收所述控制指令和所述轨迹信息，转化为相应的电压、电流信号，驱动电机运转，使所述机械臂关节运动到目标位置姿态，并实时检测关节角信息传输至所述数据处理模块。

优选地，所述嵌入式驱动单元包括角速度传感器，所述角速度传感器用于检测关节角信息，所述角速度传感器通过检测关节角速度并在相应的时间进程里积分获取关节角度，微分获取其加速度，以CAN总线传输至所述数据处理模块。

优选地，所述可视化图形界面模块具体用于接收所述数据处理模块发出的关节角信息、彩色图像信息、点云信息，并在三维仿真环境中使机械臂仿真模型根据关节角信息运动，并让目标物和障碍物以最简形式展示在界面上，以进行观测。

本发明的上述方案至少包括以下有益效果：

上述方案中，用户发出自然语言指令，语音交互模块将自然语言指令解析成对应的操作编码，发送至数据处理模块，判断出用户想要进行的操作；图像采集模块采集目标体所在场景的彩色图像信息和点云信息，发送至数据处理模块；数据处理模块将操作编码转换为操作指令发送给机械臂运动规划模块，并分析获取的彩色图像信息和点云信息，估计出目标体的位置姿态，生成轨迹信息发送给机械臂运动规划模块；机械臂运动规划模块获取到目标体精确位姿信息及轨迹信息后，驱动七自由度机械臂完成相应操作功能。本发明基于单双目摄像头结合，将深度信息和RGB彩色图像信息融合，能够有效提高抓取精度，具有广泛的应用前景。

附图说明

图1是本发明实施例提供的机械臂自主搬运系统的结构示意图；

图2是本发明实施例提供的语音交互模块的示意框图；

图3是本发明实施例提供的解析用户语音的方法流程图；

图4是本发明实施例提供的单双目摄像头信息融合的原理示意图；

图5是本发明实施例提供的目标体姿态估计的方法流程图；

图6是本发明实施例提供的机械臂控制、驱动、可视化原理示意图。

附图标记说明：1-语音交互模块；2-图像采集模块；201-双目摄像机；202-单目摄像机；3-数据处理模块；4-机械臂运动规划模块；5-七自由度机械臂；501-嵌入式驱动单元；502-机械臂关节；6-可视化图形界面模块。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供了一种基于单双目摄像头结合的机械臂自主搬运系统，如图1所示，所述械臂自主搬运系统包括：

语音交互模块1，用于将用户的自然语言指令解析成对应的操作编码，并发送至数据处理模块3；

图像采集模块2，用于采集目标体所在场景的彩色图像信息和点云信息，并发送至数据处理模块3；

数据处理模块3，用于将接收到的操作编码转换为操作指令发送给机械臂运动规划模块4，并根据获取的彩色图像信息和点云信息，对障碍物位置进行分析及对目标体位置姿态进行估计和优化，生成轨迹信息发送给机械臂运动规划模块4；

机械臂运动规划模块4，用于将接收到的操作指令转换成控制指令，并根据所述控制指令和所述轨迹信息驱动七自由度机械臂5运作；

七自由度机械臂5，用于根据所述控制指令和所述轨迹信息进行相应操作，并将关节角信息发送给数据处理模块3；

可视化图形界面模块6，用于根据数据处理模块3中的彩色图像信息、点云信息和关节角信息展现机械臂周围的局部环境以及机械臂实时的运动状态。

本发明实施例的上述方案中，用户发出自然语言指令，语音交互模块将自然语言指令解析成对应的操作编码，发送至数据处理模块，判断出用户想要进行的操作；图像采集模块采集目标体所在场景的彩色图像信息和点云信息，发送至数据处理模块；数据处理模块将操作编码转换为操作指令发送给机械臂运动规划模块，并分析获取的彩色图像信息和点云信息，估计出目标体的位置姿态，生成轨迹信息发送给机械臂运动规划模块；机械臂运动规划模块获取到目标体精确位姿信息及轨迹信息后，驱动七自由度机械臂完成相应操作功能。本发明将深度信息和RGB彩色图像信息融合，能够有效提高抓取精度，具有广泛的应用前景。

进一步地，语音交互模块1包括：

语义理解单元，用于解析所述语音处理单元传来的数字信号，将用户的自然语言指令解析拆分成多个词典的组合，判断用户想要表达的操作，并对每种操作各生成一段md5码，发送给数据处理模块3。

其中，每个词典代表一个领域词的集合，所述词典包括：目标体所在地点构建的词典、目标体种类构建的词典、对目标体的操作构建的词典。

例如：可以将目标体所在地点集合构建成一个词典例如“厨台”、“桌子”、“垃圾桶”；可以将目标体种类构建成一个词典例如“番茄汤罐头”、“肉罐头”、“芥末酱”；可以将对目标体的操作构建成一个词典例如“抓取”、“放置”；那么操作指令“将厨台的肉罐头放到垃圾桶”则对应着三种词典。

在本发明的实施例中，语音交互模块1通过USB线与计算机进行通讯，数据处理模块3识别后将其转换为操作指令，并在机械臂规划完成后反馈信息，使得语音交互模块1可以进行语音播报。

作为本发明的一种具体实现方式，如图2所示，语音交互模块采用搭载着百度DuerOS人工智能语音交互系统的RaspBerry Pi 3嵌入式设备，其连接着一块麦克分阵列嵌入式设备，用来获取用户的语音信息。

首先，需要在百度DuerOS技能开放平台，开发一个语音技能，即语音交互应用程序；根据发明需求，创建相关的的信息，例如意图、字典、常用对话，该部分根据用户的说话特点而异。

所述意图是指一名用户说出的一句话的目的，即该用户具体想表达什么，例如用户说“北京今天的天气怎么样？”，意图就是查询天气状况，用户说“我想听林俊杰的歌”，意图就是想听歌。若一名用户的一句话中，包含多个意图，这些意图将按照一定权重的概率进行相应的排序。在DuerOS技能控制台创建的一个意图，主要包含5个部分：意图信息、用户表达、槽位信息、意图确认、技能回复。

本实施例中仅设置一个意图即搬运物品。设定了三种词典，：“操作”、“物品”、“位置”，针对每个词典构建此表，例如“操作”词典里有“搬运”；“物品”词典里有“番茄汤罐头”、“芥末酱”、“肉罐头”；“位置”词典里有“桌子”、“垃圾桶”。

在定义词典的过程中，可以对某一词组信息添加同义词，例如对“操作”词典中的“搬运”添加同义词“移动”、“放”。DuerOS在解析词典的时候，属于同义词的词组将会被解析成同一槽位值，即用户发出“移动番茄汤罐头”指令和“搬运番茄汤罐头”指令效果一致。用户发出语音指令：“把桌上的番茄罐头放到垃圾桶里”，会通过解析语音信息中各个关键字对应的词典判断意图，其逻辑流程图如图3所示。

进一步地，图像采集模块2包括：

双目摄像机201，安装于预设的固定位置，用于采集目标体所在场景的点云信息以及全景RGB彩色图像信息，并通过usb3.0接口交予数据处理模块3进行分析；

单目摄像机202，安装于机械臂末端，能够随着机械臂运动，用于采集目标体所在场景的局部彩色图像信息，并通过usb2.0接口交予数据处理模块3进行分析。

图4是单双目摄像头信息融合的原理示意图。本发明实施例中的基于单双目摄像头结合的机械臂自主搬运系统运行在Linux Ubuntu16.04操作系统上，并在该系统上安装有ROS Kinetic。电脑的CPU采用Intel(R)Core(TM)i5-8400，主频3.40GHz，处理器性能稳定，16G内存，显卡采用NVIDIA GeForce GTX 1080Ti，用作离线训练用于姿态估计的卷积神经网络。采用高性能显卡，可以更快的完成训练任务，并使得模型在训练过程中，损失下降比较稳定。

单目摄像机202为广角相机采用奥尼A6000系列1080P高清摄像头，安装在机械臂末端，随着机械臂的运动而运动，需要预先标定其和机械臂末端之间的空间转换关系，所采集的RGB彩色图像用于对待搬运目标体进行姿态估计。

双目摄像机201为Intel RealSense SR300，可以获取视野范围内的彩色图像信息、红外信息、深度点云信息，本实施例中主要用到双目摄像机采集的彩色图像信息和深度点云信息，用于检测目标体、障碍物以及优化单目摄像机202所采集图像估计出的目标体位置姿态信息。

进一步地，数据处理模块3包括：

语音指令解译单元，用于识别语音交互模块1传来的操作编码，获悉用户想表达的具体操作，并转换为操作指令发送给机械臂运动规划模块；

点云数据处理单元，融合所述彩色图像数据处理单元的分析结果，用于计算目标体的质心并获悉其大体位置，计算障碍物的质心、尺寸以及优化由所述彩色图像处理单元估计出的目标体在空间中的初步位置姿态，得到最终位置姿态并生成轨迹信息交予机械臂运动规划模块4；

可视化界面数据处理单元，用于将接收到的关节角信息、彩色图像信息、点云信息交予可视化图形界面模块6。

其中，所述深度学习策略为搭建轻量级卷积神经网络用于特征提取，根据相应的数据集，通过离线训练的方式，训练出能够由一张目标体二维彩色图像映射出其在三维空间姿态的网络；

具体地，目标体姿态估计的流程如图5所示：

双目摄像机将视野内场景的点云信息和RGB彩色图像信息，通过usb3.0口传入数据处理模块，彩色图像数据处理单元及点云数据处理单元将会提取各自所需的信息处理。

首先彩色图像数据处理单元根据双目摄像机获取的全景RGB图像信息检测目标体，计算出目标体的检测边界框，该部分操作采用yolov3算法。先利用ImageLabel制作出所需的数据集，该数据包含了每个待检测的目标体边界框四个定点的横纵坐标以及中心点的坐标；通过离线训练，得到一个可以检测所有目标体的网络模型；

进一步地，点云数据处理单元根据上述输出网络模型输出边界框信息，过滤边界框之外的点云信息，仅保留目标体的点云信息，并对该部分点云信息进行体素过滤、离群点点过滤；计算过滤后的点云信息的质心，获取目标体大概的空间位置；

进一步地，将上述位置信息发送至机械臂运动规划模块，驱使机械臂运动至目标体附近，确保目标体位于单目摄像机的视野里；

进一步地，彩色图像数据处理单元对由安装在机械臂末端的单目摄像机传来的彩色图像进行分析，并对目标体进行姿态估计，该部分采用改进的Dope算法。其中，用于特征提取的主干网络，采用MobileNetv2网络，通过修改两处卷积核的步长从2变为1，保证输出的图像尺寸是原图像尺寸的1/8，从而保证和标签的尺寸一致；相比于原算法中的VGG-19网络，减少了10％左右的参数量；用于姿态估计的数据集是以三维仿真软件制作，包括物体在一定视角下的彩色图片，以及在该视角下的，三维空间中包含物体的最小长方体8个角点和一个中心点在二维图片中的映射信息；

进一步地，通过离线训练，得到一个可以由一张目标体二维彩色图像映射出其在三维空间姿态的网络模型；

进一步地，点云数据处理单元利用上述估计出的姿态，生成一个在该姿态下的目标体点云模型数据，并利用双目摄像头采集到的真实的目标体点云数据作ICP(最近点迭代)点云匹配，得到了生成的点云模型到真实点云数据间的转换关系，从而估计并优化位置姿态信息；同时点云数据处理单元会针对目标体外的点云数据即障碍物点云数据进行聚类，通过估计每一类别的质心，以及左右上下边界，估计出其粗略尺寸，最后将此位置姿态信息、尺寸信息发送至机械臂运动规划模块。

进一步地，参考图1，机械臂运动规划模块4为ROS中基于moveit控制器的程序控制模块，具体用于接收数据处理模块3输出的目标体位置姿态信息、障碍物的空间位置和尺寸信息，根据设定好的逆解器进行逆运动学运算，结合选定的规划器，在空间中规划出一条有效运动轨迹，生成轨迹信息发送至七自由度机械臂5。

七自由度机械臂5包括嵌入式驱动单元501和机械臂关节502，嵌入式驱动单元501用于接收数据处理模块3输出的控制指令和轨迹信息，转化为相应的电压、电流信号，驱动电机运转，使机械臂关节502运动到目标位置姿态，并实时检测关节角信息传输至数据处理模块3。

具体地，嵌入式驱动单元501为驱动机械臂各关节所涉及的嵌入式硬件正常工作的软件组及硬件组集合，接收完机械臂运动规划模块4的轨迹信息，转化为相应的电压、电流信号，驱动电机运转，使机械臂运动到目标位姿，其软件流程图如图5所示。

进一步地，嵌入式驱动单元501包括角速度传感器，所述角速度传感器用于检测关节角信息，所述角速度传感器通过检测关节角速度并在相应的时间进程里积分获取关节角度，微分获取其加速度，以CAN总线传输至数据处理模块3。

具体地，本发明实施例中的七自由度机械臂，其各关节上分别设置了可以实时监测包括关节的角度、速度和加速度等关节信息的传感器，其控制、驱动、可视化基本结构图如图6所示。监测数据按照CAN总线协议标准，经USB转CAN通信模块由嵌入式驱动单元501传入数据处理模块3，用于机械臂运动规划模块4规划路径及可视化图形界面模块6实时显示机械臂真实状态的仿真模型。

进一步地，可视化图形界面模块6基于QT编程，具体用于接收数据处理模块3发出的关节角信息、彩色图像信息、点云信息，并在三维仿真环境中使机械臂仿真模型根据关节角信息运动，并让目标物和障碍物以最简形式展示在界面上，以进行观测。

综上所述，本发明通过语音交互模块将用户的自然语言指令解析成操作编码，发送至数据处理模块，判断判断用户想要搬运的物体；彩色图像数据处理单元继而根据双目摄像机所获取的全景RGB图像检测出目标体并输出其边界框信息，计算边界框内的目标体点云信息的质心，得出其在空间中的大体位置；发送该信息至机械臂运动规划模块，驱动机械臂至一个可以使安配在机械臂末端的单目摄像机较好观测到目标体的位置；彩色图像数据处理单元对目标体进行姿态估计，点云数据处理单元利用该估计出的姿态，生成一个在该姿态下的目标体点云模型数据，并与真实采集的目标体点云数据作点云匹配，从而估计优化姿态信息，并将此姿态信息发送至机械臂运动规划模块；机械臂运动规划模块获取到这最终的目标体精确位姿信息后，结合接收到的空间障碍物信息，进行逆运动学规划，并将轨迹信息下发至嵌入式驱动单元，产生电压电流信号，驱动机械臂的搬运功能。本发明将深度信息和RGB彩色图像信息融合，能够有效提高抓取精度，具有广泛的应用前景。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于单双目摄像头结合的机械臂自主搬运系统，其特征在于，包括：

所述图像采集模块包括：

单目摄像机，安装于机械臂末端，能够随着机械臂运动，用于采集目标体所在场景的局部彩色图像信息，并通过usb2.0接口交予所述数据处理模块进行分析；

所述机械臂运动规划模块具体用于接收所述数据处理模块输出的目标体位置姿态信息、障碍物的空间位置和尺寸信息，进行逆运动学运算，在空间中规划出一条有效运动轨迹，生成轨迹信息发送至所述七自由度机械臂；

可视化图形界面模块，用于根据所述数据处理模块中的彩色图像信息、点云信息和关节角信息展现机械臂周围的局部环境以及机械臂实时的运动状态；

所述可视化图形界面模块具体用于接收所述数据处理模块发出的关节角信息、彩色图像信息、点云信息，并在三维仿真环境中使机械臂仿真模型根据关节角信息运动，并让目标物和障碍物以最简形式展示在界面上，以进行观测；

所述语音交互模块包括：

语音处理单元，用于接收用户的自然语言指令，并转化为相应的数字信号；所述自然语言指令包括：用户唤醒设备语音指令、用户说出的机械臂具体操作语音指令；

语义理解单元，用于解析所述语音处理单元传来的数字信号，将用户的自然语言指令解析拆分成多个词典的组合，判断用户想要表达的操作，并对每种操作各生成一段md5码，发送给所述数据处理模块；

每个所述词典代表一个领域词的集合，所述词典包括：目标体所在地点构建的词典、目标体种类构建的词典、对目标体的操作构建的词典；

所述数据处理模块包括：

可视化界面数据处理单元，用于将接收到的关节角信息、彩色图像信息、点云信息交予所述可视化图形界面模块；

所述深度学习策略为：搭建轻量级卷积神经网络，并用于特征提取；具体包括：根据相应的数据集，通过离线训练的方式，训练出能够由一张目标体二维彩色图像映射出其在三维空间姿态的网络；

所述数据集以三维仿真软件制作，包括物体在一定视角下的彩色图片，以及在该视角下的三维空间中包含物体的最小长方体八个角点和一个中心点在二维图片中的映射信息；

所述数据处理模块具体用于：

首先彩色图像数据处理单元根据双目摄像机获取的全景RGB图像信息检测目标体，计算出目标体的检测边界框，该部分操作采用yolov3算法；先利用ImageLabel制作出所需的数据集，该数据集包含了每个待检测的目标体边界框四个定点的横纵坐标以及中心点的坐标；通过离线训练，得到一个可以检测所有目标体的网络模型；

进一步地，点云数据处理单元根据上述网络模型输出边界框信息，过滤边界框之外的点云信息，仅保留目标体的点云信息，并对该部分点云信息进行体素过滤、离群点过滤；计算过滤后的点云信息的质心，获取目标体大概的空间位置；

进一步地，将上述空间位置发送至机械臂运动规划模块，驱使机械臂运动至目标体附近，确保目标体位于单目摄像机的视野里；

进一步地，彩色图像数据处理单元对由安装在机械臂末端的单目摄像机传来的彩色图像进行分析，并对目标体进行姿态估计，该部分采用改进的Dope算法；其中，用于特征提取的主干网络，采用MobileNetv2网络，通过修改两处卷积核的步长从2变为1，保证输出的图像尺寸是原图像尺寸的1/8，从而保证和标签的尺寸一致；用于姿态估计的数据集是以三维仿真软件制作，包括物体在一定视角下的彩色图片，以及在该视角下的，三维空间中包含物体的最小长方体8个角点和一个中心点在二维图片中的映射信息；

进一步地，点云数据处理单元利用上述估计出的姿态，生成一个在该姿态下的目标体点云模型数据，并利用双目摄像头采集到的真实的目标体点云数据作最近点迭代点云匹配，得到生成的点云模型到真实点云数据间的转换关系，从而估计并优化位置姿态信息；同时点云数据处理单元会针对目标体外的点云数据即障碍物点云数据进行聚类，通过估计每一类别的质心，以及左右上下边界，估计出其粗略尺寸，最后将此位置姿态信息、尺寸信息发送至机械臂运动规划模块。