CN110992422B - 一种基于3d视觉的药盒姿态估计方法 - Google Patents

一种基于3d视觉的药盒姿态估计方法 Download PDF

Info

Publication number
CN110992422B
CN110992422B CN201911063614.3A CN201911063614A CN110992422B CN 110992422 B CN110992422 B CN 110992422B CN 201911063614 A CN201911063614 A CN 201911063614A CN 110992422 B CN110992422 B CN 110992422B
Authority
CN
China
Prior art keywords
coordinate system
medicine
positioning
camera
medicine boxes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911063614.3A
Other languages
English (en)
Other versions
CN110992422A (zh
Inventor
仇翔
王国顺
赵扬扬
刘安东
滕游
俞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911063614.3A priority Critical patent/CN110992422B/zh
Publication of CN110992422A publication Critical patent/CN110992422A/zh
Application granted granted Critical
Publication of CN110992422B publication Critical patent/CN110992422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于3D视觉的药盒姿态估计方法,通过将药盒的识别、定位和姿态估计分步进行,首先通过YOLOv3卷积神经网络训练PASCAL VOC数据集,实现对药盒的识别和定位,通过药盒的定位信息分割出单个药盒进行特征匹配和单应矩阵求取,由单应矩阵得到药盒四个角点坐标,求其在相机坐标系下的坐标信息,并结合药盒四个角点的固有平齐关系建立药盒坐标系,最后转换药盒坐标系到相机坐标系获得药盒姿态估计信息。本发明实现了多个药盒的快速精确定位。

Description

一种基于3D视觉的药盒姿态估计方法
技术领域
本发明属于多目标识别、定位、姿态检测领域,涉及一种药盒姿态估计方法。
技术背景
随着工业自动化、智能仓储、智能物流的发展,机器人在各方面应用越来越广泛,尤其是以工业机器人为代表的相关自动化设备近年来一直保持这市场井喷的态势。作为工业机器人的重要应用方向,以机械臂和工业相机为硬件基础的,基于视觉技术的多目标物体抓取和分拣操作在各个领域都有着广泛的应用,为精准实现目标抓取和分拣操作,目标物体的识别、定位、姿态检测对于操作的顺利实现至关重要。
现有的物体的识别、定位、姿态检测的相关解决方案主要可基于2D或3D机器视觉。其中,基于2D机器视觉的解决方案主要用于环境稳定,表面几何形状较为简单的情况,基于2D机器视觉的解决方案虽然具有高识别效率、低运算量、低延时等优点,但容易受到光线、复杂纹理、环境变化的影响,对表面几何形状较为复杂的目标物体,其识别成功率不高。基于3D机器视觉的解决方案具有更好的适应性,但有计算量大,需要很高的硬件配置需求等不足,另外其识别准确率有限。
发明内容
为了克服现有技术的不足,本发明提供一种基于3D视觉的药盒姿态估计方法,本发明通过将多目标物体的识别、定位和姿态估计分步进行,通过YOLOv3算法实现药盒的定位,并根据目标定位框信息依次分割出单个药盒进行单应矩阵求取,单应矩阵可以实现目标物体部分遮挡情况下的识别,并通过单应矩阵求取药盒四个角点坐标。在此基础上提供一种新的姿态求取方法,即通过药盒平面的四个角点坐标求取其在相机坐标系下的坐标,以及平面法向量,通过四个角点固有约束关系和法向量求出在相机坐标系下的姿态。
本发明解决其技术问题所采用的技术方案是:
一种基于3D视觉的药盒姿态估计方法,包括以下步骤:
1)图像采集和图片归一化,制作PASCAL VOC数据集;
2)制作求取单应矩阵所用的模版;
3)模型训练
YOLOv3网络采用误差平均作为loss(损失)函数,其loss函数如下:
式中,1MaxIOU<Thresh表示预测边框中与真实对象边框IOU最大的那个,1t<128000表示前128000次迭代计入误差,表示该边框负责预测一个真实对象(边框内有对象),λ是不同类型误差的调节系数;
在avg(平均loss)低于0.01之后,停止模型训练,输出训练好的权重文件,完成YOLOv3卷积神经网络的模型训练;
4)目标定位
通过加载YOLOv3训练好的权重文件进行目标定位,获取bounding box位置信息;
bounding box预测公式如下:
其中,bx,by,bw,bh是预测边框的中心和宽高,Pr(object)*IOU(b,object)是预测边框的置信度,即对预测参数to进行σ(sigmoid函数)变换后作为置信度的值,pw,ph是先验框的宽和高,tx,ty,tw,th,to是要学习的参数,分别用于预测边框的中心和宽高,以及置信度;
5)通过目标框定位坐标依次分割药盒;
6)通过步骤2)的模板,通过特征匹配求取单应矩阵;
7)姿态计算
由相机中心透视模型得像素坐标系到相机坐标系的转换关系如下:
其中(u,v)为像素坐标,u0、v0为图像坐标系原点的像素坐标,fx、fy为相机内参,ZC是通过RGB-D相机获取的坐标深度,设像素坐标系中通过单应矩阵获取的四个角点顺序为p1、p2、p3、p4,YOLOv3目标定位框中点坐标与药盒平面中点重合,记为p0,则pi=(ui,vi)i=0,1,2,3,4带入式(3)可得pi点在相机坐标系下的坐标记为
设向量平面法向量记为
对获取的平面法向量构造C=An+η,用最小二乘法优化获取最优平面法向量n移至p1点,根据药盒边固有的垂直关系,则向量向量/>法向量n构成物体坐标系,记为坐标系{A},则坐标系{A}相对于相机坐标系{C}的描述为:
则药盒坐标系相对于相机坐标系的描述为:
本发明的技术构思为:通过将多目标物体的定位、类别确定、姿态估计分步进行,以简化YOLOv3深度学习网络模型训练。首先,通过制作PASCAL VOC数据集训练识别模型,进行药盒定位,在获取目标框之后通过设置ROI区域依次对目标进行区域分割并提取特征进行单应矩阵求取,并通过单应矩阵求取获得4个角点坐标,将4个角点坐标转化为相机坐标系下的三维坐标,通过求取平面法向量并根据4个角点固有的平直关系构造物体坐标系,然后计算出物体坐标系相对于相机坐标系的旋转关系。
本发明的有益效果主要表现在:在姿态求取中利用了YOLOv3算法实现了多个药盒的快速精确定位,并通过药盒都是矩形盒体这一特性简化模型训练,通过YOLOv3算法进行药盒定位后进行特征提取并进行单应矩阵的求取,并通过单应矩阵求取药盒的4个角点坐标,并根据四个点的固有约束关系和法向量求取物体坐标系,通过转换物体坐标系到相机坐标系求得药盒在相机坐标系下的姿态信息。本方法求取姿态相比于通过单应矩阵分解获得旋转矩阵和平移矩阵计算量更小,避免了单应矩阵复杂的求解工程,在单应矩阵求解旋转和平移矩阵中会有多解问题且难以确定最优解,另外相比于通过特征提取、特征匹配、采用PnP算法进行姿态求取,本方法可以减少特征匹配中误匹配现象,通过单应矩阵求取的4个角点更稳定,也更容易进行滤波操作。
附图说明
图1是一种基于3D视觉的药盒姿态估计方法的流程图。
图2是相机中心透视模型。
图3是药盒姿态示意图。
具体实时方式
下面结合附图对本发明做进一步描述。
参照图1,一种基于3D视觉的药盒姿态估计方法,实现该方法的系统包括三个主要模块:模型训练模块、识别定位模块、姿态估计模块,其中模型训练模块主要完成YOLOv3卷积神经网络的训练图片收集和PASCAL VOC数据集的制作,并训进行模型训练生成权重文件,识别定位模块主要进行药盒的定位,并通过获取的目标框信息依次分割出目标物体,姿态估计模块为本方法的主要功能模块,完成本方法的对多目标物体的姿态估计。
所述基于3D视觉的药盒姿态估计方法包括以下步骤:
1)图像采集和图片归一化,制作PASCAL VOC数据集;
2)制作求取单应矩阵所用的模版;
3)模型训练;
YOLOv3网络采用误差平均作为loss(损失)函数,其loss函数如下:
式中,1MaxIOU<Thresh表示预测边框中,与真实对象边框IOU最大的那个,1t<128000表示前128000次迭代计入误差,表示该边框负责预测一个真实对象(边框内有对象),λ是不同类型误差的调节系数;
在avg(平均loss)低于0.01之后,停止模型训练,输出训练好的权重文件,完成YOLO卷积神经网络的模型训练;
4)目标定位
通过加载YOLOv3训练好的权重文件进行目标定位,获取bouding box位置信息;
bouding box预测公式如下:
其中,bx,by,bw,bh是预测边框的中心和宽高,Pr(object)*IOU(b,object)是预测边框的置信度,即对预测参数to进行σ(sigmoid函数)变换后作为置信度的值,pw,ph是先验框的宽和高,tx,ty,tw,th,to是要学习的参数,分别用于预测边框的中心和宽高,以及置信度;
5)通过目标框定位坐标依次分割药盒;
6)通过步骤2)的模板,通过特征匹配求取单应矩阵;
7)姿态计算
由相机中心透视模型得像素坐标系到相机坐标系的转换关系如下:
设像素坐标系中通过单应矩阵获取的四个角点逆序为p1、p2、p3、p4,YOLOv3目标定位框中点坐标与药盒平面中点重合,记为p0,则pi=(ui,vi)i=0,1,2,3,4带入式(8)可得pi点在相机坐标系下的坐标分别为
设向量平面法向量为
对获取的4个平面法向量构造C=An+η,用最小二乘法优化获取最优平面法向量n移至点,则向量/>向量/>法向量n构成物体坐标系,记为坐标系{A},则
则药盒坐标系相对于相机坐标系的描述为:

Claims (1)

1.一种基于3D视觉的药盒姿态估计方法,其特征在于,所述方法包括以下步骤:
1)图像采集和图片归一化,制作PASCAL VOC数据集;
2)制作求取单应矩阵所用的模版;
3)模型训练;
YOLOv3网络采用误差平均作为loss函数,loss函数如下:
式中,1MaxIOU<Thresh表示预测边框中与真实对象边框IOU最大的那个,1t<128000表示前128000次迭代计入误差,表示该边框负责预测一个真实对象,λ是不同类型误差的调节系数;
在avg低于0.01之后,avg为平均loss,停止模型训练,输出训练好的权重文件,完成YOLOv3卷积神经网络的模型训练;
4)目标定位
通过加载YOLOv3训练好的权重文件进行目标定位,获取bounding box位置信息;
bounding box预测公式如下:
其中,bx,by,bw,bh是预测边框的中心和宽高,Pr(object)*IOU(b,object)是预测边框的置信度,即对预测参数to进行σ变换后作为置信度的值,pw,ph是先验框的宽和高,tx,ty,tw,th是要学习的参数,分别用于预测边框的中心和宽高;
5)通过目标框定位坐标依次分割药盒;
6)通过步骤2)的模板,通过特征匹配求取单应矩阵;
7)姿态计算
由相机中心透视模型得像素坐标系到相机坐标系的转换关系如下:
其中(u,v)为像素坐标,u0、v0为图像坐标系原点的像素坐标,fx、fy为相机内参,ZC是通过RGB-D相机获取的坐标深度,设像素坐标系中通过单应矩阵获取的四个角点顺序为p1、p2、p3、p4,YOLOv3目标定位框中点坐标与药盒平面中点重合,记为p0,则pi=(ui,vi)i=0,1,2,3,4代入式(3)得pi点在相机坐标系下的坐标记为
设向量平面法向量记为
对获取的平面法向量构造C=An+η,用最小二乘法优化获取最优平面法向量n移至p1点,根据药盒边固有的垂直关系,则向量向量/>法向量n构成物体坐标系,记为坐标系{A},则坐标系{A}相对于相机坐标系{C}的描述为:
则药盒坐标系相对于相机坐标系的描述为:
CN201911063614.3A 2019-11-04 2019-11-04 一种基于3d视觉的药盒姿态估计方法 Active CN110992422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911063614.3A CN110992422B (zh) 2019-11-04 2019-11-04 一种基于3d视觉的药盒姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911063614.3A CN110992422B (zh) 2019-11-04 2019-11-04 一种基于3d视觉的药盒姿态估计方法

Publications (2)

Publication Number Publication Date
CN110992422A CN110992422A (zh) 2020-04-10
CN110992422B true CN110992422B (zh) 2023-11-07

Family

ID=70082977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911063614.3A Active CN110992422B (zh) 2019-11-04 2019-11-04 一种基于3d视觉的药盒姿态估计方法

Country Status (1)

Country Link
CN (1) CN110992422B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882605A (zh) * 2020-06-30 2020-11-03 浙江大华技术股份有限公司 监控设备图像坐标转换方法、装置和计算机设备
CN112085804B (zh) * 2020-08-21 2022-11-01 东南大学 一种基于神经网络的物体位姿识别方法
CN113313725B (zh) * 2021-05-28 2022-06-17 湖北三江航天江河化工科技有限公司 含能材料药桶的桶口识别方法及系统
CN114495109A (zh) * 2022-01-24 2022-05-13 山东大学 基于目标与场景文字匹配的抓取机器人及抓取方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN109003303A (zh) * 2018-06-15 2018-12-14 四川长虹电器股份有限公司 基于语音和空间物体识别及定位的设备控制方法及装置
CN109685780A (zh) * 2018-12-17 2019-04-26 河海大学 一种基于卷积神经网络的零售商品识别方法
KR101982751B1 (ko) * 2018-12-27 2019-05-27 주식회사 월드씨엔에스 멀티 카메라를 이용한 이동경로 추적기술이 적용된 영상감시장치
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109934131A (zh) * 2019-02-28 2019-06-25 南京航空航天大学 一种基于无人机的小目标检测方法
WO2019206270A1 (zh) * 2018-04-27 2019-10-31 深圳市商汤科技有限公司 测距方法、智能控制方法及装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
WO2019206270A1 (zh) * 2018-04-27 2019-10-31 深圳市商汤科技有限公司 测距方法、智能控制方法及装置、电子设备和存储介质
CN109003303A (zh) * 2018-06-15 2018-12-14 四川长虹电器股份有限公司 基于语音和空间物体识别及定位的设备控制方法及装置
CN109685780A (zh) * 2018-12-17 2019-04-26 河海大学 一种基于卷积神经网络的零售商品识别方法
KR101982751B1 (ko) * 2018-12-27 2019-05-27 주식회사 월드씨엔에스 멀티 카메라를 이용한 이동경로 추적기술이 적용된 영상감시장치
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109934131A (zh) * 2019-02-28 2019-06-25 南京航空航天大学 一种基于无人机的小目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Detection of positions and recognition of brand logos visible on images captured using mobile devices";Marcin Skoczylas;《 2014 International Conference and Exposition on Electrical and Power Engineering》;20141204;第863-868页 *
"HEASK:Robust homography estimation based on appearance similarity and keypoint correspondences";Yan Q et al.;《Pattern Recognition》;20141231;第47卷(第1期);第368-387页 *
"Homographybased visual servoing of wheeled mobile robots";Fang Y et al.;《Proceedings of the 41st IEEE Conference on Decision and Control》;20021231;第2866—2871页 *
"Real-time seamless single shot 6D object pose prediction";Tekin B et al.;《IEEE/CVF Conference on Computer》;20181231;第292—301页 *
"基于单应矩阵的相对位姿改进算法";张培科等;《计算机工程与应》;20171231;第53卷(第17期);第25-30页 *
基于YOLOV3算法的行人检测方法;孟本成;《电视技术》;20190505(第09期);第6-9页 *

Also Published As

Publication number Publication date
CN110992422A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110992422B (zh) 一种基于3d视觉的药盒姿态估计方法
CN112476434B (zh) 一种基于协作机器人的视觉3d取放方法及系统
CN108656107B (zh) 一种基于图像处理的机械臂抓取系统及方法
CN111553949B (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN108229416B (zh) 基于语义分割技术的机器人slam方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN112907735B (zh) 一种基于点云的柔性电缆识别与三维重建方法
CN111476841B (zh) 一种基于点云和图像的识别定位方法及系统
CN113034600B (zh) 基于模板匹配的无纹理平面结构工业零件识别和6d位姿估计方法
CN112509063A (zh) 一种基于边缘特征匹配的机械臂抓取系统及方法
CN112669385A (zh) 基于三维点云特征的工业机器人工件识别与位姿估计方法
CN110533716B (zh) 一种基于3d约束的语义slam系统及方法
CN112734844B (zh) 一种基于正八面体的单目6d位姿估计方法
CN114743259A (zh) 位姿估计方法、位姿估计系统、终端、存储介质及应用
CN114882109A (zh) 一种面向遮挡、杂乱场景下的机器人抓取检测方法及系统
CN111368759A (zh) 基于单目视觉的移动机器人语义地图构建系统
CN112465903A (zh) 一种基于深度学习点云匹配的6dof物体姿态估计方法
CN113327298A (zh) 基于图像实例分割和点云pca算法的一种抓取姿态估计方法
Khalid et al. Deep workpiece region segmentation for bin picking
CN102324043B (zh) 基于dct的特征描述算子及优化空间量化的图像匹配方法
Sheng et al. Mobile robot localization and map building based on laser ranging and PTAM
CN117351078A (zh) 基于形状先验的目标尺寸与6d姿态估计方法
CN115719377A (zh) 一种六自由度位姿估计数据集自动采集系统
CN116309817A (zh) 一种基于rgb-d相机的托盘检测与定位方法
Wu et al. Object Pose Estimation with Point Cloud Data for Robot Grasping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant