CN108648233B - 一种基于深度学习的目标识别与抓取定位方法 - Google Patents

一种基于深度学习的目标识别与抓取定位方法 Download PDF

Info

Publication number
CN108648233B
CN108648233B CN201810248258.1A CN201810248258A CN108648233B CN 108648233 B CN108648233 B CN 108648233B CN 201810248258 A CN201810248258 A CN 201810248258A CN 108648233 B CN108648233 B CN 108648233B
Authority
CN
China
Prior art keywords
target
pixel
image
algorithm
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810248258.1A
Other languages
English (en)
Other versions
CN108648233A (zh
Inventor
贾松敏
鞠增跃
张国梁
李秀智
张祥银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810248258.1A priority Critical patent/CN108648233B/zh
Publication of CN108648233A publication Critical patent/CN108648233A/zh
Application granted granted Critical
Publication of CN108648233B publication Critical patent/CN108648233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component

Abstract

本发明公开了一种基于深度学习的目标识别与抓取定位方法,属于机器视觉领域。首先,利用Kinect相机采集场景的深度和彩色图像,然后使用Faster R‑CNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入,通过图像分割获取目标的轮廓,进而获取目标的具体位置,并作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置和抓取姿态。通过该方法提高目标识别与定位的实时性、准确性以及智能性。

Description

一种基于深度学习的目标识别与抓取定位方法
技术领域
本发明属于机器视觉领域。提出了一种基于深度学习的目标识别与抓取定位方法,用于提高目标识别与定位的实时性、准确性以及智能性。
背景技术
随着工业自动化技术的发展,机器人的数量在不断的增加,工业机器人已经广泛的应用到汽车制造,机械加工、电子电气以及智能家庭服务等生活的方方面面。机器人技术的发展在一定程度上反应了一个国家自动化的发展水平,随着社会经济的发展,生产规模的扩大以及生产环境的复杂化,开发和生产更加智能化、信息化、高精度的自动化系统显得尤为的重要。在机器视觉领域,目标识别与定位是关键技术,其不仅可以指引机器人完成某项任务,如工业零件加工、分拣以及搬运等任务。其在视觉场景理解、地图创建以及AR等复杂的视觉领域也有重要的意义,研究机器视觉技术是推动机器人发展的一项巨大的举措。传统的机械臂的抓取采用的是示教系统,但当待抓取目标的位置、形状以及环境发生变化时,示教系统下的机械臂不能随外界的变化而做出相应的调整,因而会造成抓取任务的失败。计算机视觉解决机械臂抓取任务的通常做法是,首先利用相机对场景采样,利用图像处理算法获取目标位置以及空间的姿态信息,最终使机械臂完成抓取任务。传统的机械臂识别阶段的图像处理采用特征提取的方法来处理图像信息,特征提取的过程中容易受到光照、目标形状和目标大小等外界因素的影响,因此泛化能力和鲁棒性较差。深度学习概念是Hinton在2006年首次提出,Krizhevsky在2012年的ImageNet比赛利用深度学习的方法取得了优异的成绩,深度学习引起了全世界研究人员的关注。相比于传统的视觉算法,深度学习不需要使用者预先选定提取的何种特征,而是通过学习的方式在大量的数据中找到目标所具有的特征。
针对传统视觉算法泛化能力低、鲁棒性不强的特点,本专利采用Faster R-CNN深度学习的方法识别目标,提高了识别系统的泛化能力和鲁棒性。但深度学习识别阶段只能获得目标的位置和类别,并不能获得目标的抓取位置,为了解决这个问题,本专利采用LenzI等人提出的基于深度学习方法进行抓取位置学习,最终获得机械臂的抓取位置和抓取姿态。
发明内容
本发明的目的是提供一种准确且高效的目标识别和抓取定位方法。
本发明采用如下的技术方案:
为了解决上述传统视觉算法存在的问题,提出了一种基于深度学习的目标识别与抓取定位方法。首先,利用Kinect相机采集场景的深度和彩色图像,然后使用Faster R-CNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入,通过图像分割获取目标的轮廓,进而获取目标的具体位置,并作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置和抓取姿态。
本发明的技术特征如下:
(1)基于深度学习的目标识别;
Faster R-CNN是R-CNN深度学习算法进化版本,R-CNN将图像提取ROI(regionofinterest),将所有的ROI放到CNN中,通过SVM(Support Vector Machine)分类器得到每一个ROI的分类,然后对每一个ROI区域做bounding-box的回归,从而得到最终的目标识别结果。Faster R-CNN在R-CNN的基础上进行改进,把整个图像作为CNN(ConvolutionalNeural Networks)的输入,ROI在CNN的特征映射图中寻找映射到的部分,同时用Softmax分类器取代SVM作为系统的分类器,在速度上有了很大的提升。Faster R-CNN对于RegionProposal的产生采用PRN(region proposal network)的新算法,大大的降低以前用Selective Search产生ROI所用的时间,Faster R-CNN的识别速度可达0.05-0.2秒/张(5-17fps),Faster R-CNN在PASCALVOC2007数据集上的识别率可达73.2%mAp(平均准确率),在PASCAL VOC2012数据集上识别率可达70.4%mAp,鉴于其优秀的性能,采用Faster R-CNN深度学习的算法进行目标识别。具体的步骤如下所示。
步骤一,Kinect采集场景的深度图像和彩色图像。
步骤二,将整幅图像输入到CNN神经网络,提取图像的特征。
步骤三,用PRN生成建议窗口。
Ren S Q等人为每个生成框分配了一个二元标签,通过标签判断框内是否为目标。其中具备以下两种情况之一的被标记为正标签,1)与某个或者真实框有最高的交集与并集之比的标框;2)与任意真实框的交集并集之比超过0.7的标框。与真实标框交集并集之比小于0.3的标记为负标签。采用多任务损失函数来最小化目标函数,目标函数定义为:
Figure BDA0001607130580000031
其中i表示一个小批量样本的索引;pi表示小批量样本的索引i的目标的概率;真实标签
Figure BDA0001607130580000032
为1时表示为正标签,
Figure BDA0001607130580000033
为0时表示负标签;ti表示预测边界的四个参数化变量;
Figure BDA0001607130580000034
表示正标签小批量样本的索引i对应的真实框的坐标向量;Lcls和Lreg分别表示分类损失和回归损失,Ncls和Nreg表示归一化参数;λ表示平衡权重。
步骤四,将建议窗口映射到CNN的最后一层卷积特征图上。
步骤五,通过ROI池化层使个ROI生成固定尺寸的特征图。
步骤六,利用Softmax Loss即探测分类概率和Smooth L1Loss即探测边框回归对目标进行分类与定位。
(2)图像超像素分割;
简单线性迭代聚类是在K-means聚类算法的基础上,拓展而来的一种简单而高效的构建超像素的方法。采用超像素算法将图像预分割成块状图,能够减少构建网格图的定点数,进而缩短计算时间。与其他的超像素算法相比,利用SLIC构建超像素图的优越性在于:1)形成超像素区域的尺寸基本一致;2)可调参数个数少,便于利用;3)处理速度快而且分块能够很好地贴合目标的边界;4)每个超像素区域内部的各像素之间的特征差异性小;5)可设置期望的超像素个数。其过程首先需要初始化聚类中心,之后将聚类中心点移至最小梯度位置,迭代直至收敛。具体超像素分割步骤如下。
步骤一,以步长为S的网络中心初始化聚类中心点cj={lj,aj,bj,xj,yj}T,其到超像素中心的距离测量ds如式(2)所示。其中lj、aj和bj表示CLELAB颜色空间的l、a和b颜色通道信息,xj,yj表示聚类中心点的坐标,j表示像素点的序号数。
Figure BDA0001607130580000041
其中,p表示空间和像素颜色的相对重要性的度量,dlab代表颜色距离,dxy代表空间距离。
步骤二,将聚类中心点移至该邻域内梯度最小的位置。
步骤三,在每个种子点周围的邻域内为像素点分配类标签即属于哪个聚类中心。
步骤四,通过计算搜索到的像素点和该种子点的距离,更新聚类中心。
步骤五,计算剩余误差,重复步骤三到步骤五直至误差收敛。
(3)基于GrabCut算法提取目标轮廓;
GrabCut是基于GraphCuts迭代式图像分割算法,采用高斯混合模型代替灰度直方图,实现彩色图像分割。定义Gibbs能量函数为
E(a,k,θ,z)=U(a,k,θ,z)+V(a,z) (3)
其中a为不透明度,a∈[0,1],0为背景,1为前景目标;k是像素的高斯分量;θ为像素属于前景/背景的概率,z是图像像素。U称之为数据项,其定义为
Figure BDA0001607130580000042
D(an,kn,θ,zn)=-logp(zn|an,kn,θ)-logπ(an,kn) (4)
其中:p(.)为高斯概率分布,π(.)为混合权重系数。V称之为平滑项,其定义为
Figure BDA0001607130580000043
其中:e=0;(m,n)表示两个相邻像素点m和n;C是相邻像素点对应的集合;[.]是取值为0或1的函数,当且仅当an≠am时,[an≠am]=1,当且仅当an=am时,[an≠am]=0;β=(2<||zm-zn||2>)-1,<.>表示样本的数学期望。
在设置适当阈值的前提下,使用超像素分割算法对图像进行预处理,得到区域内相似度比较高且拓扑结构比较规整的块状区域。进而使用各个区域中的RGB均值代替区域内像素值进行GMM参数估计并构建精简的网格图,最后,为了保证图像分割精度,使用得到的GMM参数对原始图像进行分割,从而达到提高分割速度而精度不减的目的。具体的改进的GrabCut分割步骤如下。
步骤一,根据块索引,初始化GMM参数。
步骤二,将预处理阶段获得的原图像进行三元图初始化,矩形以外的区域为背景区域TB,目标区域TF,未知区域TU,其中
Figure BDA0001607130580000051
步骤三,将背景区域像素点的透明度设值设为0,未知区域像素的透明度值设为1。如果像素属于TB,则像素的透明值为0;如果像素属于TU,则像素点的透明值为1。前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化。
步骤四,迭代估计GMM参数:1)GMM标号。2)学习GMM参数。3)根据分块之间的邻接关系构建网络图,并用最大流/最小割算法进行分割。4)迭代步骤1~3,直到算法收敛。
步骤五,根据得到的GMM参数对原始图像构造S-T网格图,使用最大流/最小割算法进行分割。
步骤六,输出分割结果,提取目标物体轮廓。
(3)最优抓取位置检测;
通过(1)、(2)和(3)三个过程可以获得目标的位置和轮廓,但是机械臂的抓取不仅需要目标的坐标信息,还需要目标的抓取姿态信息。为了求解目标的抓取姿态,采用Lenz I等人提出的最优抓取位置检测算法,该算法是由一个深度网络组成的两步级联神经网络系统,首先选择一组包含目标的候选抓取区域,然后在前一步的基础上在候选区域上进行检测并获取最优的抓取位置。具体的过程分为以下几个步骤。
步骤一,根据分割结果获取目标最小的矩形区域。
分割结果得到了目标的轮廓,根据目标的轮廓构建目标的最小矩形图像。并根据目标的最小矩形区域分别从彩色图、深度图和基于深度图的表面法向量上截取出来。
步骤二,生成若干组搜索框。
对截取的区域做旋转、白化数据以及保持纵横比操作,生成若干组的搜索框,当生成搜索框时,这组搜索框就被转换成为一个24×24×7大小的输入特征,24×24为搜索框的归一化尺寸,7为通道数。
步骤三,深度神经网络对抓取目标分类和预测。
当预处理阶段完成之后,特征数据将会被送到包含两个隐含层的神经网络中,对于神经网络权值训练的目的是找到一个最优单一的抓取框,使得机械臂抓到目标的概率最大,概率函数的表达式为(6)所示:
Figure BDA0001607130580000061
D表示特定抓取框的位置、大小和方向,D*表示最优抓取矩形框,其中φ(D)函数表示D的提取矩形框标准的输入表示;Θ表示神经网络的权值;
Figure BDA0001607130580000062
表示函数的输出,取值为{0,1}。
附图说明
图1表示基于深度学习的目标识别与抓取定位方法流程图。
图2表示目标识别与抓取定位的实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
为了解决上述传统视觉算法存在的问题,提出了一种基于深度学习的目标识别与抓取定位方法。首先,利用Kinect相机采集场景的深度和彩色图像,使用Faster RCNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入来提取目标的轮廓,进而获取目标的具体位置,然后将位置信息作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置与姿态。所涉及的方法整体流程如附图1所示,具体实施过程分为以下步骤:
步骤一,Kinect采集场景的深度图像和彩色图像。
步骤二,将整幅图像输入到CNN卷积神经网络完成图像特征的提取任务。
步骤三,用PRN生成建议窗口。
步骤四,通过ROI池化层使个ROI生成固定尺寸的特征图。
步骤五,使用Softmax Loss(探测分类概率)和Smooth L1Loss(探测边框回归)模型对目标做分类与定位处理。
步骤六,对场景图像进行超像素分割。
步骤七,根据块索引初始化GMM参数。并将预处理阶段获得的原图像进行三元图初始化,矩形以外的区域为背景区域TB,目标区域表示为TF,未知区域表示为TU。将背景区域像素点的透明度设置为0,未知区域像素的透明度设置为1,前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化。
步骤八,迭代估计GMM参数:1)GMM标号;2)学习GMM参数;3)根据分块之间的邻接关系构建网络图,并用最大流/最小割算法进行分割;4)迭代步骤1)~3),直到算法收敛。根据得到的GMM参数对原始图像构造网格图,使用最大流/最小割算法进行分割,提取目标轮廓。
步骤九,根据分割结果构建若干组搜索框。
步骤十,深度神经网络对抓取目标分类和预测。
下面为本发明在目标检测领域中的一个应用实例。
本实例是采用专利所提出的目标识别与抓取定位算法在实验室场景的应用。以水瓶为目标,首先使用Kinect相机采集目标场景,通过Faster R-CNN深度学习算法识别目标,然后通过分割算法获取目标的轮廓,最终使用深度网络模型分类和预测目标的最优抓取位置。具体的实验结果图参见说明书附图2。

Claims (1)

1.一种基于深度学习的目标识别与抓取定位方法,其特征在于:
首先,利用Kinect相机采集场景的深度和彩色图像,然后使用Faster R-CNN深度学习算法识别场景目标,根据识别的类别选择抓取的目标区域,并作为GrabCut图像分割算法的输入,通过图像分割获取目标的轮廓,进而获取目标的具体位置,并作为级联神经网络的输入进行最优抓取位置检测,最终获取机械臂的抓取位置和抓取姿态;
(1)基于深度学习的目标识别;
步骤一,Kinect采集场景的深度图像和彩色图像;
步骤二,将整幅图像输入到CNN神经网络,提取图像的特征;
步骤三,用PRN生成建议窗口;
采用多任务损失函数来最小化目标函数,目标函数定义为:
Figure FDA0003419247790000011
其中i表示一个小批量样本的索引;pi表示小批量样本的索引i的目标的概率;真实标签
Figure FDA0003419247790000012
为1时表示为正标签,
Figure FDA0003419247790000013
为0时表示负标签;ti表示预测边界的四个参数化变量;
Figure FDA0003419247790000014
表示正标签小批量样本的索引i对应的真实框的坐标向量;Lcls和Lreg分别表示分类损失和回归损失,Ncls和Nreg表示归一化参数;λ表示平衡权重;
步骤四,将建议窗口映射到CNN的最后一层卷积特征图上;
步骤五,通过ROI池化层使个ROI生成固定尺寸的特征图;
步骤六,利用Softmax Loss即探测分类概率和Smooth L1 Loss即探测边框回归对目标进行分类与定位;
(2)图像超像素分割;
简单线性迭代聚类是在K-means聚类算法的基础上,拓展而来的一种简单而高效的构建超像素的方法;采用超像素算法将图像预分割成块状图,能够减少构建网格图的定点数,进而缩短计算时间;具体超像素分割步骤如下;
步骤一,以步长为S的网络中心初始化聚类中心点cj={lj,aj,bj,xj,yj}T,其到超像素中心的距离测量ds如式(2)所示;其中lj、aj和bj表示CLELAB颜色空间的l、a和b颜色通道信息,xj,yj表示聚类中心点的坐标,j表示像素点的序号数;
Figure FDA0003419247790000021
其中,p表示空间和像素颜色的相对重要性的度量,dlab代表颜色距离,dxy代表空间距离;
步骤二,将聚类中心点移至邻域内梯度最小的位置;
步骤三,在每个种子点周围的邻域内为像素点分配类标签即属于哪个聚类中心;
步骤四,通过计算搜索到的像素点和该种子点的距离,更新聚类中心;
步骤五,计算剩余误差,重复步骤三到步骤五直至误差收敛;
(3)基于GrabCut算法提取目标轮廓;
GrabCut是基于GraphCuts迭代式图像分割算法,采用高斯混合模型代替灰度直方图,实现彩色图像分割;定义Gibbs能量函数为
E(a,k,θ,z)=U(a,k,θ,z)+V(a,z) (3)
其中a为不透明度,a∈[0,1],0为背景,1为前景目标;k是像素的高斯分量;θ为像素属于前景/背景的概率,z是图像像素;U称之为数据项,其定义为
Figure FDA0003419247790000022
D(an,kn,θ,zn)=-logp(zn|an,kn,θ)-logπ(an,kn) (4)
其中:p(.)为高斯概率分布,π(.)为混合权重系数;V称之为平滑项,其定义为
Figure FDA0003419247790000023
其中:e=0;(m,n)表示两个相邻像素点m和n;C是相邻像素点对应的集合;[.]是取值为0或1的函数,当且仅当an≠am时,[an≠am]=1,当且仅当an=am时,[an≠am]=0;β=(2<||zm-zn||2>)-1,<.>表示样本的数学期望;
在设置适当阈值的前提下,使用超像素分割算法对图像进行预处理,得到区域内相似度比较高且拓扑结构比较规整的块状区域;进而使用各个区域中的RGB均值代替区域内像素值进行GMM参数估计并构建精简的网格图,最后,为了保证图像分割精度,使用得到的GMM参数对原始图像进行分割,从而达到提高分割速度而精度不减的目的;具体的改进的GrabCut分割步骤如下;
步骤一,根据块索引,初始化GMM参数;
步骤二,将预处理阶段获得的原图像进行三元图初始化,矩形以外的区域为背景区域TB,目标区域TF,未知区域TU,其中
Figure FDA0003419247790000031
步骤三,将背景区域像素点的透明度设值设为0,未知区域像素的透明度值设为1;如果像素属于TB,则像素的透明值为0;如果像素属于TU,则像素点的透明值为1;前景和背景的高斯混合模型分别采用像素透明值为1和像素透明值为0的点进行初始化;
步骤四,迭代估计GMM参数:1)GMM标号;2)学习GMM参数;3)根据分块之间的邻接关系构建网络图,并用最大流/最小割算法进行分割;4)迭代步骤1~3,直到算法收敛;
步骤五,根据得到的GMM参数对原始图像构造S-T网格图,使用最大流/最小割算法进行分割;
步骤六,输出分割结果,提取目标物体轮廓;
(3)最优抓取位置检测;
通过(1)、(2)和(3)三个过程可以获得目标的位置和轮廓,但是机械臂的抓取不仅需要目标的坐标信息,还需要目标的抓取姿态信息;为了求解目标的抓取姿态,采用最优抓取位置检测算法,该算法是由一个深度网络组成的两步级联神经网络系统,首先选择一组包含目标的候选抓取区域,然后在前一步的基础上在候选区域上进行检测并获取最优的抓取位置;具体的过程分为以下几个步骤;
步骤一,根据分割结果获取目标最小的矩形区域;
分割结果得到了目标的轮廓,根据目标的轮廓构建目标的最小矩形图像;并根据目标的最小矩形区域分别从彩色图、深度图和基于深度图的表面法向量上截取出来;
步骤二,生成若干组搜索框;
对截取的区域做旋转、白化数据以及保持纵横比操作,生成若干组的搜索框,当生成搜索框时,这组搜索框就被转换成为一个24×24×7大小的输入特征,24×24为搜索框的归一化尺寸,7为通道数;
步骤三,深度神经网络对抓取目标分类和预测;
当预处理阶段完成之后,特征数据将会被送到包含两个隐含层的神经网络中,对于神经网络权值训练的目的是找到一个最优单一的抓取框,使得机械臂抓到目标的概率最大,概率函数的表达式为(6)所示:
Figure FDA0003419247790000041
D表示特定抓取框的位置、大小和方向,D*表示最优抓取矩形框,其中φ(D)函数表示D的提取矩形框标准的输入表示;Θ表示神经网络的权值;
Figure FDA0003419247790000042
表示函数的输出,取值为{0,1}。
CN201810248258.1A 2018-03-24 2018-03-24 一种基于深度学习的目标识别与抓取定位方法 Active CN108648233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810248258.1A CN108648233B (zh) 2018-03-24 2018-03-24 一种基于深度学习的目标识别与抓取定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810248258.1A CN108648233B (zh) 2018-03-24 2018-03-24 一种基于深度学习的目标识别与抓取定位方法

Publications (2)

Publication Number Publication Date
CN108648233A CN108648233A (zh) 2018-10-12
CN108648233B true CN108648233B (zh) 2022-04-12

Family

ID=63744580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810248258.1A Active CN108648233B (zh) 2018-03-24 2018-03-24 一种基于深度学习的目标识别与抓取定位方法

Country Status (1)

Country Link
CN (1) CN108648233B (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447169B (zh) * 2018-11-02 2020-10-27 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN110348277A (zh) * 2018-11-30 2019-10-18 浙江农林大学 一种基于自然背景下的树种图像识别方法
CN109584251A (zh) * 2018-12-06 2019-04-05 湘潭大学 一种基于单目标区域分割的舌体图像分割方法
CN109670501B (zh) * 2018-12-10 2020-08-25 中国科学院自动化研究所 基于深度卷积神经网络的物体识别与抓取位置检测方法
CN109658413B (zh) * 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
CN109636794B (zh) * 2018-12-14 2023-02-28 辽宁奇辉电子系统工程有限公司 一种基于机器学习的地铁高度调节阀紧固螺母定位方法
CN109813276B (zh) * 2018-12-19 2021-01-26 五邑大学 一种基站天线下倾角测量方法及其系统
CN111347411B (zh) * 2018-12-20 2023-01-24 中国科学院沈阳自动化研究所 基于深度学习的双臂协作机器人三维视觉识别抓取方法
CN109702741B (zh) * 2018-12-26 2020-12-18 中国科学院电子学研究所 基于自监督学习神经网络的机械臂视觉抓取系统及方法
CN111383263A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 机器人抓取物体系统、方法及装置
CN109693239A (zh) * 2018-12-29 2019-04-30 深圳市越疆科技有限公司 一种基于深度强化学习的机器人抓取方法
CN109784297A (zh) * 2019-01-26 2019-05-21 福州大学 一种基于深度学习的三维目标识别与最优抓取方法
CN109895095B (zh) * 2019-02-11 2022-07-15 赋之科技(深圳)有限公司 一种训练样本的获取方法、装置和机器人
CN109977812B (zh) * 2019-03-12 2023-02-24 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN109919156B (zh) * 2019-03-13 2022-07-19 网易传媒科技(北京)有限公司 图像裁剪预测模型的训练方法、介质、装置及计算设备
CN109917419B (zh) * 2019-04-12 2021-04-13 中山大学 一种基于激光雷达与图像的深度填充密集系统及方法
CN110111370B (zh) * 2019-05-15 2023-05-30 重庆大学 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法
EP3750842B1 (de) 2019-06-11 2021-10-20 Siemens Aktiengesellschaft Verladen einer last mit einem kransystem
CN110310291A (zh) * 2019-06-25 2019-10-08 四川省农业科学院农业信息与农村经济研究所 一种稻瘟病分级系统及其方法
CN110287884B (zh) * 2019-06-26 2021-06-22 长安大学 一种辅助驾驶中压线检测方法
CN110276805A (zh) * 2019-06-28 2019-09-24 联想(北京)有限公司 一种数据处理方法及电子设备
CN110473196B (zh) * 2019-08-14 2021-06-04 中南大学 一种基于深度学习的腹部ct图像目标器官配准方法
CN110509273B (zh) * 2019-08-16 2022-05-06 天津职业技术师范大学(中国职业培训指导教师进修中心) 基于视觉深度学习特征的机器人机械手检测及抓取方法
CN110706234B (zh) * 2019-10-08 2022-05-13 浙江工业大学 一种图像的自动精细分割方法
CN110837818A (zh) * 2019-11-18 2020-02-25 汕头大学 一种基于卷积神经网路的中华白海豚背鳍识别方法
CN112991356B (zh) * 2019-12-12 2023-08-01 中国科学院沈阳自动化研究所 机械臂在复杂环境下的快速分割方法
CN111079746B (zh) * 2019-12-12 2020-08-21 哈尔滨市科佳通用机电股份有限公司 铁路货车轴箱弹簧故障图像识别方法
CN111199227A (zh) * 2019-12-20 2020-05-26 广西柳州联耕科技有限公司 一种高精度图像识别方法
CN111186656A (zh) * 2020-01-10 2020-05-22 上海电力大学 一种目标垃圾分类方法及智能垃圾桶
CN111539259A (zh) * 2020-03-31 2020-08-14 广州富港万嘉智能科技有限公司 目标物体的识别方法、人工神经网络的训练方法、计算机可读存储介质及机械手
CN111507390B (zh) * 2020-04-11 2023-07-04 华中科技大学 一种基于轮廓特征的仓储箱体识别与定位方法
CN111618848B (zh) * 2020-04-28 2022-08-12 平安科技(深圳)有限公司 多机器人的协作控制方法、装置及计算机设备
US20230186514A1 (en) * 2020-05-15 2023-06-15 Shanghai Flexiv Robotics Technology Co., Ltd. Cable detection method, robot and storage device
CN111598172B (zh) * 2020-05-18 2023-08-29 东北大学 基于异构深度网络融合的动态目标抓取姿态快速检测方法
CN111844019B (zh) * 2020-06-10 2021-11-16 安徽鸿程光电有限公司 一种机器抓取位置确定方法、设备、电子设备和存储介质
CN111890357B (zh) * 2020-07-01 2023-07-04 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN112734847A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 一种多目标光纤位置精确检测定位系统及方法
CN112861667A (zh) * 2021-01-26 2021-05-28 北京邮电大学 一种基于多类别目标分割的机器人抓取检测方法
CN113763109A (zh) * 2021-02-03 2021-12-07 北京沃东天骏信息技术有限公司 物品推荐方法、装置、设备及存储介质
CN113524194B (zh) * 2021-04-28 2023-03-21 重庆理工大学 基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法
CN113326933B (zh) * 2021-05-08 2022-08-09 清华大学 基于注意力机制的物体操作指令跟随学习方法及装置
CN113688825A (zh) * 2021-05-17 2021-11-23 海南师范大学 一种ai智能垃圾识别分类系统和方法
CN113343355B (zh) * 2021-06-08 2022-10-18 四川大学 基于深度学习的飞机蒙皮型面检测路径规划方法
CN113470048B (zh) * 2021-07-06 2023-04-25 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN113516649B (zh) * 2021-07-28 2024-02-02 亿嘉和科技股份有限公司 基于超像素分割的柜体表面检测方法
CN113744333B (zh) * 2021-08-20 2024-02-13 北京航空航天大学 一种物体抓取位置获取方法及装置
CN113743287B (zh) * 2021-08-31 2024-03-26 之江实验室 基于脉冲神经网络的机器人自适应抓取控制方法及系统
CN113657551B (zh) * 2021-09-01 2023-10-20 陕西工业职业技术学院 一种用于分拣堆叠多目标的机器人抓取姿态任务规划方法
CN113763476B (zh) * 2021-09-09 2023-12-01 西交利物浦大学 目标物的抓取方法、设备和存储介质
US11900643B2 (en) 2021-09-17 2024-02-13 Himax Technologies Limited Object detection method and object detection system
CN114061476B (zh) * 2021-11-17 2023-04-18 国网宁夏电力有限公司建设分公司 一种输电线路绝缘子挠度检测方法
CN114683287B (zh) * 2022-04-25 2023-10-20 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法
CN114627125B (zh) * 2022-05-17 2022-07-15 南通剑烽机械有限公司 一种基于光学手段的不锈钢压片机表面质量评估方法
CN115319739A (zh) * 2022-08-02 2022-11-11 中国科学院沈阳自动化研究所 一种基于视觉机械臂抓取工件方法
CN115147491B (zh) * 2022-09-02 2022-11-15 山东西曼克技术有限公司 用于agv小车的搬运目标位姿信息估计方法
CN115205636B (zh) * 2022-09-15 2023-04-07 苏州浪潮智能科技有限公司 一种图像的目标检测方法、系统、设备及存储介质
CN117115569B (zh) * 2023-10-24 2024-02-06 深圳桑达银络科技有限公司 基于机器学习的物像自动识别分类方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122713A (zh) * 2017-03-27 2017-09-01 华南理工大学 一种基于深度学习的似物性检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639748B2 (en) * 2013-05-20 2017-05-02 Mitsubishi Electric Research Laboratories, Inc. Method for detecting persons using 1D depths and 2D texture
CN104346620B (zh) * 2013-07-25 2017-12-29 佳能株式会社 对输入图像中的像素分类的方法和装置及图像处理系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122713A (zh) * 2017-03-27 2017-09-01 华南理工大学 一种基于深度学习的似物性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
实时的移动机器人语义地图构建系统;李秀智 等;《仪器仪表学报》;20171130;第38卷(第11期);全文 *
深度学习在目标视觉检测中的应用进展与展望;张慧 等;《自动化学报》;20170831;第43卷(第8期);全文 *

Also Published As

Publication number Publication date
CN108648233A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108648233B (zh) 一种基于深度学习的目标识别与抓取定位方法
CN106845510B (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN108304873B (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN112288857A (zh) 一种基于深度学习的机器人语义地图物体识别方法
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
CN107527054B (zh) 基于多视角融合的前景自动提取方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
CN110853070A (zh) 基于显著性与Grabcut的水下海参图像分割方法
CN112396655B (zh) 一种基于点云数据的船舶目标6d位姿估计方法
CN113592894B (zh) 一种基于边界框和同现特征预测的图像分割方法
CN114283162A (zh) 基于对比自监督学习的现实场景图像分割方法
CN111488760A (zh) 基于深度多示例学习的少样本行人重识别方法
CN114492619B (zh) 一种基于统计和凹凸性的点云数据集构建方法及装置
Wu et al. Location recognition algorithm for vision-based industrial sorting robot via deep learning
Kuppusamy et al. Enriching the multi-object detection using convolutional neural network in macro-image
Wei et al. Novel green-fruit detection algorithm based on D2D framework
CN110634142A (zh) 一种复杂车路图像边界优化方法
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
Pan et al. Online human action recognition based on improved dynamic time warping
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN111627033B (zh) 一种难样本实例分割方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant