CN109670501A - 基于深度卷积神经网络的物体识别与抓取位置检测方法 - Google Patents
基于深度卷积神经网络的物体识别与抓取位置检测方法 Download PDFInfo
- Publication number
- CN109670501A CN109670501A CN201811504072.4A CN201811504072A CN109670501A CN 109670501 A CN109670501 A CN 109670501A CN 201811504072 A CN201811504072 A CN 201811504072A CN 109670501 A CN109670501 A CN 109670501A
- Authority
- CN
- China
- Prior art keywords
- rectangle frame
- candidate rectangle
- candidate
- crawl position
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 46
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000002184 metal Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000006870 function Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Abstract
本发明属于服务机器人技术领域,具体涉及一种基于深度卷积神经网络的物体识别与抓取位置检测方法,旨在解决现有物体识别与抓取位置检测技术实时性仍需进一步提升的问题,本发明方法预先构建并训练包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络,并基于该网络进行物体识别、定位矩形框的获取、抓取位置检测。本发明可以有效提升物体识别与抓取位置检测的实时性。
Description
技术领域
本发明属于服务机器人技术领域,具体涉及一种基于深度卷积神经网络的物体识别与抓取位置检测方法。
背景技术
随着科技的不断进步,服务机器人朝着智能化的方向快速发展,并在家庭服务、安保、医疗康复等领域发挥着越来越重要的作用。物体抓取技术对机器人提供优质服务来说是必不可少的。作为物体抓取技术的重要一环,物体识别和抓取位置检测,即准确识别出物体并确定出物体上可抓取的位置,一直是学者特别关注的研究方向。就感知传感器来说,为完成物体识别和抓取位置检测,视觉传感器以其能够提供丰富的信息而成为首选。
传统的物体识别方法基于手工设计的特征,其缺陷是手工设计的特征需要丰富的专业知识且较为耗时,对物体形态和观测角度、光照强度等变化的适应性较差。深度学习以其强大的表征和建模能力被广泛应用;其中,深度卷积神经网络是研究的热点,通过监督或非监督的方式,逐层自动地学习物体的特征表示,避免了手工设计特征的繁琐低效,常用的深度卷积神经网络模型包括ZFNet网络、VGG网络等。目前常见的基于深度卷积神经网络的物体检测方法有基于区域建议的方法(Faster R-CNN等)和无区域建议的方法(例如YOLO、SSD等),其中Faster R-CNN以其较高的精度受到关注。随着深度卷积神经网络在图像分类和目标检测等领域的有效进展,已有研究学者将其应用于抓取位置检测中。现有的物体识别与抓取位置检测方案,通常需要两个深度卷积神经网络:物体识别卷积神经网络用于识别出物体、抓取位置检测卷积神经网络用于检测出物体上可抓取的位置,这两个卷积神经网络是通过级联的方式进行连接的,然而,级联物体识别卷积神经网络与抓取检测卷积神经网络的实现方式的实时性还有待提高。
因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有物体识别与抓取位置检测技术实时性仍需进一步提升的问题,本发明提出了一种基于深度卷积神经网络的物体识别与抓取位置检测方法,基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络,该方法包括以下步骤:
步骤S10,服务机器人通过安装在自身的Kinect传感器获取原始彩色图像,作为第一图像;
步骤S20,将所述第一图像压缩为第二图像;所述第二图像的预设尺寸为M×N;
步骤S30,基于所述区域建议网络提取所述第二图像的特征图G,并对所述特征图G进行候选矩形框的提取,构建第一候选矩形框集合;
步骤S40,利用感兴趣区域池化对所述第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理,得到第一特征向量;第一特征向量经所述全连接层进行处理后得到第二特征向量;
步骤S50,将所述第一候选矩形框集合中的各候选矩形框所对应的第二特征向量,分别送入所述分类器中进行类别判定,并构建第二候选矩形框集合;
步骤S60,利用所述第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整,得到各候选矩形框所对应的定位矩形框,构建定位矩形框集合;
步骤S70,对于所述定位矩形框集合中的各定位矩形框,利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置。
在一些优选实施例中,步骤S50中对所述第一候选矩形框集合中的各候选矩形框进行类别判定的步骤包括:
步骤S501,将候选矩形框对应的第二特征向量通过所述分类器,生成1×nobj维的向量其中,nobj为所述分类器所对应的物体类别库中物体的类别数目,Vs中的各元素分别与物体类别库中的一个类别相对应;vξ为该第二特征向量所对应的候选矩形框存在物体类别库中的第ξ类物体的概率,其中ξ=1,2,…,nobj;
步骤S502,选取Vs中最大元素值MVs,并确定该元素值对应的物体类别CM。
在一些优选实施例中,在步骤S502之后,对所述第一候选矩形框集合中各候选矩形框按照步骤S503进行筛选后得到第二候选矩形框集合,步骤S503包括:
当MVs≥Ts时,向量Vs对应的候选矩形框及其类别CM保留,其中,Ts为预设的阈值;否则,向量Vs对应的候选矩形框从第一候选矩形框集合中删除。
在一些优选实施例中,步骤S60中所述第一回归器用带有四个参数的向量t={tx,ty,tw,th}进行表示,其中,tx为横坐标平移量,ty为纵坐标平移量,tw为宽度缩放量,th为高度缩放量。
在一些优选实施例中,步骤S60“利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整”,其方法为:
用表征向量{xa,ya,wa,ha}对第二候选矩形框集合中的候选矩形框Fr进行表征,其中,(xa,ya)为Fr的中心点坐标,wa、ha分别为Fr的宽度和高度;
利用第一回归器对Fr进行调整,得到Fr相应的定位矩形框,用{x,y,w,h}进行表征,其中x=tx·wa+xa,y=ty·ha+ya,
在一些优选实施例中,步骤S70中抓取位置为点P1(x1,y1)和点P2(x2,y2),所述第二回归器用带有四个参数的向量q={qx1,qy1,qx2,qy2}进行表示,其中,qx1、qy1分别为第一抓取点P1所对应的横坐标平移量和纵坐标平移量,qx2、qy2分别为第二抓取点P2所对应的横坐标平移量和纵坐标平移量。
在一些优选实施例中,步骤S70中“利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置”,其方法为:
第二回归器的输出结果用{x1,y1,x2,y2}进行表征,其中x1=w·qx1+x,y1=h·qy1+y,x2=w·qx2+x,y2=h·qy2+y。
在一些优选实施例中,利用训练样本,基于损失函数Lloss对所述深度卷积神经网络进行训练以获取所述区域建议网络、所述全连接层、所述分类器、所述第一回归器、所述第二回归器的参数;
其中,
所述训练样本包含三类标注信息:物体类别、标签矩形框、抓取位置的两点坐标的标签值;
所述损失函数Lloss为
该式中,
kcls、kbox_reg、kpoint_reg为预设的权值;
为第二候选矩形框集合中的第i个候选矩形框经所述分类器处理后的输出向量,其中i为自然数,且i∈[1,neff];
为所述分类器的损失函数;
为所述第一回归器的损失函数;
{xi,yi,wi,hi}为第二候选矩形框集合中的第i个候选矩形框对应的第一回归器的输出,和分别表示第二候选矩形框集合中的第i个候选矩形框的表征向量和标签矩形框的表征向量;
为所述第二回归器的损失函数;
和分别表示第二候选矩形框集合中的第i个候选矩形框所对应的第二回归器输出的两个点的坐标;和表示第二候选矩形框集合中的第i个候选矩形框的抓取位置的两点坐标的标签值。
在一些优选实施例中,所述分类器的损失函数的计算方法为:
为中的最大值。
在一些优选实施例中,所述第一回归器的损失函数的计算方法为:
在一些优选实施例中,所述第二回归器的损失函数的计算方法为:
有益效果:
本发明基于深度卷积神经网络的物体识别与抓取位置检测方法,将物体识别、定位和抓取位置检测的损失函数结合在一起用于一个深度卷积神经网络的训练,通过训练后的深度卷积神经网络实现物体识别、定位和抓取位置检测三个任务,可以更加有效的提升物体识别与抓取位置检测的实时性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于深度卷积神经网络的物体识别与抓取位置检测方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于深度卷积神经网络的物体识别与抓取位置检测方法,如图1所示,基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络,该方法包括以下步骤:
步骤S10,服务机器人通过安装在自身的Kinect传感器获取原始彩色图像,作为第一图像;
步骤S20,将第一图像压缩为第二图像;第二图像的预设尺寸为M×N;
步骤S30,基于区域建议网络提取第二图像的特征图G,并对特征图G进行候选矩形框的提取,构建第一候选矩形框集合;
步骤S40,利用感兴趣区域池化对第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理,得到第一特征向量;该第一特征向量经全连接层进行处理,得到第二特征向量;
步骤S50,将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量,分别送入分类器中进行类别判定,并构建第二候选矩形框集合;
步骤S60,利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整,得到各候选矩形框所对应的定位矩形框,构建定位矩形框集合;其中,每一个定位矩形框对应一个物体;
步骤S70,对于定位矩形框集合中的各定位矩形框,利用第二回归器分别计算各定位矩形框所对应物体的抓取位置。
为了获取上述深度卷积神经网络中区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数,构建该深度卷积神经网络的损失函数,通过训练样本进行训练,从而得到上述深度卷积神经网络中区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数,具体损失函数的设置会在下文具体展开说明。
为了更清晰地对本发明基于深度卷积神经网络的物体识别与抓取位置检测方法进行说明,下面对本方发明方法一种实施例中各步骤进行展开详述。
该实施例为一种较优的实现方式,预先构建一个包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络,基于预先构建的训练样本集并结合预先设计的损失函数对该深度卷积神经网络进行训练,获取区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数,并应用到本发明的基于深度卷积神经网络的物体识别与抓取位置检测方法中。
步骤S10,服务机器人通过安装在自身的Kinect传感器获取原始彩色图像,作为第一图像。
步骤S20,将第一图像压缩为第二图像;第二图像的预设尺寸为M×N。
步骤S30,基于区域建议网络提取第二图像的特征图G,并对特征图G进行候选矩形框的提取,构建第一候选矩形框集合。
本实施例中,基于第二图像,利用物体检测方法Faster R-CNN中的区域建议网络(Region Proposal Network,RPN)对图像中可能的目标位置进行候选矩形框的提取。在本实施例中,RPN包括五个卷积层,即conv1、conv2、conv3、conv4和conv5,这五个卷积层顺次连接,设置方式如下:滤波器参数分别为7×7×96、5×5×256、3×3×384、3×3×384和3×3×256,步长分别为2、2、1、1和1,均采用最大值池化的方式进行池化处理;第二图像经过conv1、conv2、conv3、conv4和conv5卷积层处理后得到特征图G。在特征图G上进行滑窗,基准窗大小记为锚箱,在每个锚箱中心按照尺寸64×64、128×128、256×256和长宽比1:1、1:2、2:1的组合生成9种尺度的矩形框;对每个矩形框,采用阈值为0.7的非极大值抑制进行筛选,得到通过筛选的第一候选矩形框集合。
本实施例中的9种尺度的矩形框通过3种预设尺寸、3种长宽比组合获得,例如3种预设尺寸分别为64×64、128×128、256×256,3种长宽比分别1:1、1:2、2:1,将3种预设尺寸分别与3种长宽比进行组合,共得到9种尺度的矩形框:长宽比1:1对应得到3种尺度的矩形框64×64、128×128、256×256,长宽比1:2对应得到3种尺度的矩形框64×128、128×256、256×512,长宽比2:1对应得到3种尺度的矩形框128×64、256×128、512×256。
步骤S40,利用感兴趣区域池化对第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理,得到第一特征向量;该第一特征向量经全连接层进行处理,得到第二特征向量。
本实施例中,对于第一候选矩形框集合中的每一个候选矩形框,利用感兴趣区域池化(RoI Pooling)对各候选矩形框在特征图G上所对应的特征进行处理,具体为:
采用空间尺度为4×4、2×2、1×1的空间金字塔进行池化(采用最大值池化的方式),分别得到4×4×256=16×256维、2×2×256=4×256维、1×1×256=1×256维向量,将这些向量结合起来作为候选矩形框的特征向量,即第一特征向量,其维度为(16+4+1)×256=21×256;
本实施例中,用于获取第二特征向量的全连接层有两层,分别为F1和F2,这两层顺次连接,且每层均有1024个神经元;第一特征向量送入F1层,F2层的输出作为第二特征向量,其维度为1×1024。
步骤S50,将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量,分别送入分类器中进行类别判定,并构建第二候选矩形框集合。
本实施例中,将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量,分别送入分类器中进行类别判定,并构建第二候选矩形框集合。对每个候选矩形框的判定具体为:
步骤S501,将候选矩形框对应的第二特征向量,送入softmax分类器进行类别判定,其中softmax分类器为一个1024×nobj维的向量,softmax分类器的输出为1×nobj维的向量其中,nobj为softmax分类器所对应的物体类别库中物体的类别数目,Vs中的各元素分别与物体类别库中的一个类别相对应;vξ为该第二特征向量所对应的候选矩形框存在物体类别库中的第ξ类物体的概率,其中ξ=1,2,…,nobj。
步骤S502,选取Vs中最大元素值MVs,并确定该元素值对应的物体类别CM。
步骤S503,当MVs≥Ts时,向量Vs对应的候选矩形框及其类别CM保留,其中,Ts为预设的阈值;否则,向量Vs对应的候选矩形框从第一候选矩形框集合中删除。
通过步骤S501-S502对第一候选矩形框集合中的各候选矩形框进行类别判定,并通过步骤S503判定是否满足保留条件,将满足保留条件的候选矩形框构成第二候选矩形框集合,该集合中候选矩形框的个数为neff。
步骤S60,利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整,得到各候选矩形框所对应的定位矩形框,构建定位矩形框集合,其中,每一个定位矩形框对应一个物体。
本实施例中,第一回归器用带有四个参数的向量t={tx,ty,tw,th}进行描述,其中,tx为横坐标平移量,ty为纵坐标平移量,tw为宽度缩放量,th为高度缩放量。
对于第二候选矩形框集合中的候选矩形框Fr来说,具体调整过程如下:用表征向量{xa,ya,wa,ha}对候选矩形框Fr进行表征,其中,(xa,ya)为Fr的中心点坐标,wa、ha分别为Fr的宽度和高度;利用第一回归器对Fr进行调整,得到Fr相应的定位矩形框,用{x,y,w,h}进行表征,其中x=tx·wa+xa,y=ty·ha+ya,
步骤S70,对于定位矩形框集合中的各定位矩形框,利用第二回归器分别计算各定位矩形框所对应物体的抓取位置。
对于步骤S60中得到的各个定位矩形框,利用第二回归器分别计算出各定位矩形框所对应物体的抓取位置,本实施例中,抓取位置用两点P1(x1,y1)和P2(x2,y2)进行描述;第二回归器用带有四个参数的向量q={qx1,qy1,qx2,qy2}进行描述,其中,qx1、qy1分别为第一抓取点P1所对应的横坐标平移量和纵坐标平移量,qx2、qy2分别为第二抓取点P2所对应的横坐标平移量和纵坐标平移量;第二回归器的输出结果用{x1,y1,x2,y2}进行表征,其中x1=w·qx1+x,y1=h·qy1+y,x2=w·qx2+x,y2=h·qy2+y。
下面对本发明实施例包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络的训练样本、损失函数进行说明。
训练样本包含三类标注信息,物体类别、标签矩形框、抓取位置的两点坐标的标签值。训练样本可以采用LabelImg软件制作,将每张图片标注为一个xml文件。
上述深度卷积神经网络的损失函数Lloss如公式(1)所示。
该式中,
kcls、kbox_reg、kpoint_reg为预设的权值;
为第二候选矩形框集合中的第i个候选矩形框经softmax分类器处理后的输出向量,其中i为自然数,且i∈[1,neff];
为softmax分类器的损失函数;
为第一回归器的损失函数;
为第二回归器的损失函数;
再继续对损失函数中的符号进行说明:
softmax分类器的损失函数如公式(2)所示:
其中,为中的最大值;
第一回归器的损失函数如公式(3)所示,其参数的计算分别如公式(4)、(5)所示:
其中,{xi,yi,wi,hi}为第二候选矩形框集合中的第i个候选矩形框对应的第一回归器的输出,和分别表示第二候选矩形框集合中的第i个候选矩形框的表征向量和标签矩形框的表征向量。
第二回归器的损失函数如公式(6)所示,其参数的计算分别如公式(7)、(8)所示:
其中,和分别表示第二候选矩形框集合中的第i个候选矩形框所对应的第二回归器输出的两个点的坐标;和表示第二候选矩形框集合中的第i个候选矩形框的抓取位置的两点坐标的标签值。
在本发明的一个具体的实施例中,Kinect传感器倾斜向下安装,其倾斜角度为45°,其它关键预设参数可以做如下设定:M=224,N=224,nobj=4,Ts=0.75,kcls=1/3,kbox_reg=1/3,kpoint_reg=1/3。
采用本发明能够通过一个深度卷积神经网络完成物体识别、定位和抓取位置检测,提升了物体识别与抓取位置检测技术的实时性,为服务机器人在家庭、办公等环境下的物体识别与抓取位置检测提供技术支持,能够实现较好的技术效果。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络,该方法包括以下步骤:
步骤S10,服务机器人通过安装在自身的Kinect传感器获取原始彩色图像,作为第一图像;
步骤S20,将所述第一图像压缩为第二图像;所述第二图像的预设尺寸为M×N;
步骤S30,基于所述区域建议网络提取所述第二图像的特征图G,并对所述特征图G进行候选矩形框的提取,构建第一候选矩形框集合;
步骤S40,利用感兴趣区域池化对所述第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理,得到第一特征向量;第一特征向量经所述全连接层进行处理后得到第二特征向量;
步骤S50,将所述第一候选矩形框集合中的各候选矩形框所对应的第二特征向量,分别送入所述分类器中进行类别判定,并构建第二候选矩形框集合;
步骤S60,利用所述第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整,得到各候选矩形框所对应的定位矩形框,构建定位矩形框集合;
步骤S70,对于所述定位矩形框集合中的各定位矩形框,利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置。
2.根据权利要求1所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于:
步骤S50中对所述第一候选矩形框集合中的各候选矩形框进行类别判定的步骤包括:
步骤S501,将候选矩形框对应的第二特征向量通过所述分类器,生成1×nobj维的向量其中,nobj为所述分类器所对应的物体类别库中物体的类别数目,Vs中的各元素分别与物体类别库中的一个类别相对应;vξ为该第二特征向量所对应的候选矩形框存在物体类别库中的第ξ类物体的概率,其中ξ=1,2,…,nobj;
步骤S502,选取Vs中最大元素值MVs,并确定该元素值对应的物体类别CM。
3.根据权利要求2所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于:
在步骤S502之后,对所述第一候选矩形框集合中各候选矩形框按照步骤S503进行筛选后得到第二候选矩形框集合,步骤S503包括:
当MVs≥Ts时,向量Vs对应的候选矩形框及其类别CM保留,其中,Ts为预设的阈值;否则,向量Vs对应的候选矩形框从第一候选矩形框集合中删除。
4.根据权利要求1所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,步骤S60中所述第一回归器用带有四个参数的向量t={tx,ty,tw,th}进行表示,其中,tx为横坐标平移量,ty为纵坐标平移量,tw为宽度缩放量,th为高度缩放量。
5.根据权利要求4所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,步骤S60“利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整”,其方法为:
用表征向量{xa,ya,wa,ha}对第二候选矩形框集合中的候选矩形框Fr进行表征,其中,(xa,ya)为Fr的中心点坐标,wa、ha分别为Fr的宽度和高度;
利用第一回归器对Fr进行调整,得到Fr相应的定位矩形框,用{x,y,w,h}进行表征,其中x=tx·wa+xa,y=ty·ha+ya,
6.根据权利要求5所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,步骤S70中抓取位置为点P1(x1,y1)和点P2(x2,y2),所述第二回归器用带有四个参数的向量q={qx1,qy1,qx2,qy2}进行表示,其中,qx1、qy1分别为第一抓取点P1所对应的横坐标平移量和纵坐标平移量,qx2、qy2分别为第二抓取点P2所对应的横坐标平移量和纵坐标平移量。
7.根据权利要求6所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,步骤S70中“利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置”,其方法为:
第二回归器的输出结果用{x1,y1,x2,y2}进行表征,其中x1=w·qx1+x,y1=h·qy1+y,x2=w·qx2+x,y2=h·qy2+y。
8.根据权利要求1-7任一项所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,利用训练样本,基于损失函数Lloss对所述深度卷积神经网络进行训练以获取所述区域建议网络、所述全连接层、所述分类器、所述第一回归器、所述第二回归器的参数;
其中,
所述训练样本包含三类标注信息:物体类别、标签矩形框、抓取位置的两点坐标的标签值;
所述损失函数Lloss为
该式中,
kcls、kbox_reg、kpoint_reg为预设的权值;
为第二候选矩形框集合中的第i个候选矩形框经所述分类器处理后的输出向量,其中i为自然数,且i∈[1,neff];
为所述分类器的损失函数;
为所述第一回归器的损失函数;
{xi,yi,wi,hi}为第二候选矩形框集合中的第i个候选矩形框对应的第一回归器的输出,和分别表示第二候选矩形框集合中的第i个候选矩形框的表征向量和标签矩形框的表征向量;
为所述第二回归器的损失函数;
和分别表示第二候选矩形框集合中的第i个候选矩形框所对应的第二回归器输出的两个点的坐标;和表示第二候选矩形框集合中的第i个候选矩形框的抓取位置的两点坐标的标签值。
9.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,所述分类器的损失函数的计算方法为:
其中,为中的最大值。
10.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,所述第一回归器的损失函数的计算方法为:
11.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法,其特征在于,所述第二回归器的损失函数的计算方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504072.4A CN109670501B (zh) | 2018-12-10 | 2018-12-10 | 基于深度卷积神经网络的物体识别与抓取位置检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811504072.4A CN109670501B (zh) | 2018-12-10 | 2018-12-10 | 基于深度卷积神经网络的物体识别与抓取位置检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670501A true CN109670501A (zh) | 2019-04-23 |
CN109670501B CN109670501B (zh) | 2020-08-25 |
Family
ID=66143659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811504072.4A Active CN109670501B (zh) | 2018-12-10 | 2018-12-10 | 基于深度卷积神经网络的物体识别与抓取位置检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670501B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135582A (zh) * | 2019-05-09 | 2019-08-16 | 北京市商汤科技开发有限公司 | 神经网络训练、图像处理方法及装置、存储介质 |
CN110263753A (zh) * | 2019-06-28 | 2019-09-20 | 北京海益同展信息科技有限公司 | 一种对象统计方法和装置 |
CN111145851A (zh) * | 2019-12-27 | 2020-05-12 | 山东华尚电气有限公司 | 一种基于智能手环的心理状态监测评估系统 |
CN114301850A (zh) * | 2021-12-03 | 2022-04-08 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114998575A (zh) * | 2022-06-29 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 训练和使用目标检测模型的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975941A (zh) * | 2016-05-31 | 2016-09-28 | 电子科技大学 | 一种基于深度学习的多方向车型检测识别系统 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
-
2018
- 2018-12-10 CN CN201811504072.4A patent/CN109670501B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975941A (zh) * | 2016-05-31 | 2016-09-28 | 电子科技大学 | 一种基于深度学习的多方向车型检测识别系统 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
Non-Patent Citations (2)
Title |
---|
BIN LIU ETL.: "Study of object detection based on Faster R-CNN", 《2017 CHINESE AUTOMATION CONGRESS (CAC)》 * |
周安众 等: "一种多尺度卷积神经网络的人脸检测模型", 《计算机工程与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135582A (zh) * | 2019-05-09 | 2019-08-16 | 北京市商汤科技开发有限公司 | 神经网络训练、图像处理方法及装置、存储介质 |
CN110263753A (zh) * | 2019-06-28 | 2019-09-20 | 北京海益同展信息科技有限公司 | 一种对象统计方法和装置 |
CN110263753B (zh) * | 2019-06-28 | 2020-12-22 | 北京海益同展信息科技有限公司 | 一种对象统计方法和装置 |
CN111145851A (zh) * | 2019-12-27 | 2020-05-12 | 山东华尚电气有限公司 | 一种基于智能手环的心理状态监测评估系统 |
CN114301850A (zh) * | 2021-12-03 | 2022-04-08 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114301850B (zh) * | 2021-12-03 | 2024-03-15 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114998575A (zh) * | 2022-06-29 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 训练和使用目标检测模型的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109670501B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670501A (zh) | 基于深度卷积神经网络的物体识别与抓取位置检测方法 | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN113537106B (zh) | 一种基于YOLOv5的鱼类摄食行为识别方法 | |
CN109615611A (zh) | 一种基于巡检影像的绝缘子自爆缺陷检测方法 | |
CN112287788A (zh) | 基于改进YOLOv3和改进NMS的行人检测方法 | |
CN107066916B (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN109584248A (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109840889A (zh) | 基于仿生算法的高精度视觉测量方法、装置和系统 | |
CN106951870B (zh) | 主动视觉注意的监控视频显著事件智能检测预警方法 | |
CN109815770A (zh) | 二维码检测方法、装置及系统 | |
CN104992452B (zh) | 基于热成像视频的飞行目标自动跟踪方法 | |
CN107463892A (zh) | 一种结合上下文信息和多级特征的图像中行人检测方法 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN108010025B (zh) | 基于rcnn的屏柜的开关与指示灯定位和状态识别方法 | |
CN105654066A (zh) | 一种车辆识别方法及装置 | |
CN109087294A (zh) | 一种产品缺陷检测方法、系统及计算机可读存储介质 | |
CN107256377A (zh) | 用于检测视频中的对象的方法、设备和系统 | |
CN113538574B (zh) | 位姿定位方法、装置、设备及计算机可读存储介质 | |
CN110414559A (zh) | 智能零售柜商品目标检测统一框架的构建方法及商品识别方法 | |
CN112560675B (zh) | Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法 | |
CN107330922A (zh) | 基于运动信息和区域特征的航拍视频运动目标检测方法 | |
CN112115906A (zh) | 基于深度学习目标检测和度量学习的开放性菜品识别方法 | |
CN109002752A (zh) | 一种基于深度学习的复杂公共场景快速行人检测方法 | |
CN108209926A (zh) | 基于深度图像的人体身高测量系统 | |
CN103761526A (zh) | 一种基于特征位置优选整合的城区检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |