CN110992422B

CN110992422B - 一种基于3d视觉的药盒姿态估计方法

Info

Publication number: CN110992422B
Application number: CN201911063614.3A
Authority: CN
Inventors: 仇翔; 王国顺; 赵扬扬; 刘安东; 滕游; 俞立
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2023-11-07
Anticipated expiration: 2039-11-04
Also published as: CN110992422A

Abstract

一种基于3D视觉的药盒姿态估计方法，通过将药盒的识别、定位和姿态估计分步进行，首先通过YOLOv3卷积神经网络训练PASCAL VOC数据集，实现对药盒的识别和定位，通过药盒的定位信息分割出单个药盒进行特征匹配和单应矩阵求取，由单应矩阵得到药盒四个角点坐标，求其在相机坐标系下的坐标信息，并结合药盒四个角点的固有平齐关系建立药盒坐标系，最后转换药盒坐标系到相机坐标系获得药盒姿态估计信息。本发明实现了多个药盒的快速精确定位。

Description

一种基于3D视觉的药盒姿态估计方法

技术领域

本发明属于多目标识别、定位、姿态检测领域，涉及一种药盒姿态估计方法。

技术背景

随着工业自动化、智能仓储、智能物流的发展，机器人在各方面应用越来越广泛，尤其是以工业机器人为代表的相关自动化设备近年来一直保持这市场井喷的态势。作为工业机器人的重要应用方向，以机械臂和工业相机为硬件基础的，基于视觉技术的多目标物体抓取和分拣操作在各个领域都有着广泛的应用，为精准实现目标抓取和分拣操作，目标物体的识别、定位、姿态检测对于操作的顺利实现至关重要。

现有的物体的识别、定位、姿态检测的相关解决方案主要可基于2D或3D机器视觉。其中，基于2D机器视觉的解决方案主要用于环境稳定，表面几何形状较为简单的情况，基于2D机器视觉的解决方案虽然具有高识别效率、低运算量、低延时等优点，但容易受到光线、复杂纹理、环境变化的影响，对表面几何形状较为复杂的目标物体，其识别成功率不高。基于3D机器视觉的解决方案具有更好的适应性，但有计算量大，需要很高的硬件配置需求等不足，另外其识别准确率有限。

发明内容

为了克服现有技术的不足，本发明提供一种基于3D视觉的药盒姿态估计方法，本发明通过将多目标物体的识别、定位和姿态估计分步进行，通过YOLOv3算法实现药盒的定位，并根据目标定位框信息依次分割出单个药盒进行单应矩阵求取，单应矩阵可以实现目标物体部分遮挡情况下的识别，并通过单应矩阵求取药盒四个角点坐标。在此基础上提供一种新的姿态求取方法，即通过药盒平面的四个角点坐标求取其在相机坐标系下的坐标，以及平面法向量，通过四个角点固有约束关系和法向量求出在相机坐标系下的姿态。

本发明解决其技术问题所采用的技术方案是：

一种基于3D视觉的药盒姿态估计方法，包括以下步骤：

1)图像采集和图片归一化，制作PASCAL VOC数据集；

2)制作求取单应矩阵所用的模版；

3)模型训练

YOLOv3网络采用误差平均作为loss(损失)函数，其loss函数如下：

式中，1_{MaxIOU＜Thresh}表示预测边框中与真实对象边框IOU最大的那个，1_t＜128000表示前128000次迭代计入误差，表示该边框负责预测一个真实对象(边框内有对象)，λ是不同类型误差的调节系数；

在avg(平均loss)低于0.01之后，停止模型训练，输出训练好的权重文件，完成YOLOv3卷积神经网络的模型训练；

4)目标定位

通过加载YOLOv3训练好的权重文件进行目标定位，获取bounding box位置信息；

bounding box预测公式如下：

其中，b_x，b_y，b_w，b_h是预测边框的中心和宽高，Pr(object)*IOU(b,object)是预测边框的置信度，即对预测参数t_o进行σ(sigmoid函数)变换后作为置信度的值，p_w，p_h是先验框的宽和高，t_x，t_y，t_w，t_h，t_o是要学习的参数，分别用于预测边框的中心和宽高，以及置信度；

5)通过目标框定位坐标依次分割药盒；

6)通过步骤2)的模板，通过特征匹配求取单应矩阵；

7)姿态计算

由相机中心透视模型得像素坐标系到相机坐标系的转换关系如下：

其中(u,v)为像素坐标，u₀、v₀为图像坐标系原点的像素坐标，f_x、f_y为相机内参，Z_C是通过RGB-D相机获取的坐标深度，设像素坐标系中通过单应矩阵获取的四个角点顺序为p₁、p₂、p₃、p₄，YOLOv3目标定位框中点坐标与药盒平面中点重合，记为p₀，则p_i＝(u_i,v_i)i＝0，1，2，3，4带入式(3)可得p_i点在相机坐标系下的坐标记为

设向量平面法向量记为则

对获取的平面法向量构造C＝An+η，用最小二乘法优化获取最优平面法向量n移至p₁点，根据药盒边固有的垂直关系，则向量向量/>法向量n构成物体坐标系，记为坐标系{A}，则坐标系{A}相对于相机坐标系{C}的描述为：

则药盒坐标系相对于相机坐标系的描述为：

本发明的技术构思为：通过将多目标物体的定位、类别确定、姿态估计分步进行，以简化YOLOv3深度学习网络模型训练。首先，通过制作PASCAL VOC数据集训练识别模型，进行药盒定位，在获取目标框之后通过设置ROI区域依次对目标进行区域分割并提取特征进行单应矩阵求取，并通过单应矩阵求取获得4个角点坐标，将4个角点坐标转化为相机坐标系下的三维坐标，通过求取平面法向量并根据4个角点固有的平直关系构造物体坐标系，然后计算出物体坐标系相对于相机坐标系的旋转关系。

本发明的有益效果主要表现在：在姿态求取中利用了YOLOv3算法实现了多个药盒的快速精确定位，并通过药盒都是矩形盒体这一特性简化模型训练，通过YOLOv3算法进行药盒定位后进行特征提取并进行单应矩阵的求取，并通过单应矩阵求取药盒的4个角点坐标，并根据四个点的固有约束关系和法向量求取物体坐标系，通过转换物体坐标系到相机坐标系求得药盒在相机坐标系下的姿态信息。本方法求取姿态相比于通过单应矩阵分解获得旋转矩阵和平移矩阵计算量更小，避免了单应矩阵复杂的求解工程，在单应矩阵求解旋转和平移矩阵中会有多解问题且难以确定最优解，另外相比于通过特征提取、特征匹配、采用PnP算法进行姿态求取，本方法可以减少特征匹配中误匹配现象，通过单应矩阵求取的4个角点更稳定，也更容易进行滤波操作。

附图说明

图1是一种基于3D视觉的药盒姿态估计方法的流程图。

图2是相机中心透视模型。

图3是药盒姿态示意图。

具体实时方式

下面结合附图对本发明做进一步描述。

参照图1，一种基于3D视觉的药盒姿态估计方法，实现该方法的系统包括三个主要模块：模型训练模块、识别定位模块、姿态估计模块，其中模型训练模块主要完成YOLOv3卷积神经网络的训练图片收集和PASCAL VOC数据集的制作，并训进行模型训练生成权重文件，识别定位模块主要进行药盒的定位，并通过获取的目标框信息依次分割出目标物体，姿态估计模块为本方法的主要功能模块，完成本方法的对多目标物体的姿态估计。

所述基于3D视觉的药盒姿态估计方法包括以下步骤：

1)图像采集和图片归一化，制作PASCAL VOC数据集；

2)制作求取单应矩阵所用的模版；

3)模型训练；

YOLOv3网络采用误差平均作为loss(损失)函数，其loss函数如下：

式中，1_{MaxIOU＜Thresh}表示预测边框中，与真实对象边框IOU最大的那个，1_t＜128000表示前128000次迭代计入误差，表示该边框负责预测一个真实对象(边框内有对象)，λ是不同类型误差的调节系数；

在avg(平均loss)低于0.01之后，停止模型训练，输出训练好的权重文件，完成YOLO卷积神经网络的模型训练；

4)目标定位

通过加载YOLOv3训练好的权重文件进行目标定位，获取bouding box位置信息；

bouding box预测公式如下：

5)通过目标框定位坐标依次分割药盒；

6)通过步骤2)的模板，通过特征匹配求取单应矩阵；

7)姿态计算

设像素坐标系中通过单应矩阵获取的四个角点逆序为p₁、p₂、p₃、p₄，YOLOv3目标定位框中点坐标与药盒平面中点重合，记为p₀，则p_i＝(u_i,v_i)i＝0，1，2，3，4带入式(8)可得p_i点在相机坐标系下的坐标分别为

设向量平面法向量为则

对获取的4个平面法向量构造C＝An+η，用最小二乘法优化获取最优平面法向量n移至点，则向量/>向量/>法向量n构成物体坐标系，记为坐标系{A}，则

则药盒坐标系相对于相机坐标系的描述为：

Claims

1.一种基于3D视觉的药盒姿态估计方法，其特征在于，所述方法包括以下步骤：

1)图像采集和图片归一化，制作PASCAL VOC数据集；

2)制作求取单应矩阵所用的模版；

3)模型训练；

YOLOv3网络采用误差平均作为loss函数，loss函数如下：

式中，1_{MaxIOU＜Thresh}表示预测边框中与真实对象边框IOU最大的那个，1_t＜128000表示前128000次迭代计入误差，表示该边框负责预测一个真实对象，λ是不同类型误差的调节系数；

在avg低于0.01之后，avg为平均loss，停止模型训练，输出训练好的权重文件，完成YOLOv3卷积神经网络的模型训练；

4)目标定位

bounding box预测公式如下：

其中，b_x，b_y，b_w，b_h是预测边框的中心和宽高，Pr(object)*IOU(b,object)是预测边框的置信度，即对预测参数t_o进行σ变换后作为置信度的值，p_w，p_h是先验框的宽和高，t_x，t_y，t_w，t_h是要学习的参数，分别用于预测边框的中心和宽高；

5)通过目标框定位坐标依次分割药盒；

6)通过步骤2)的模板，通过特征匹配求取单应矩阵；

7)姿态计算

其中(u,v)为像素坐标，u₀、v₀为图像坐标系原点的像素坐标，f_x、f_y为相机内参，Z_C是通过RGB-D相机获取的坐标深度，设像素坐标系中通过单应矩阵获取的四个角点顺序为p₁、p₂、p₃、p₄，YOLOv3目标定位框中点坐标与药盒平面中点重合，记为p₀，则p_i＝(u_i,v_i)i＝0，1，2，3，4代入式(3)得p_i点在相机坐标系下的坐标记为

设向量平面法向量记为则

则药盒坐标系相对于相机坐标系的描述为：