CN109670501A

CN109670501A - 基于深度卷积神经网络的物体识别与抓取位置检测方法

Info

Publication number: CN109670501A
Application number: CN201811504072.4A
Authority: CN
Inventors: 曹志强; 贾群; 陈尔奎; 梁爽; 喻俊志; 周超
Original assignee: Shandong Huashang Electric Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Shandong Huashang Electric Co ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-04-23
Anticipated expiration: 2038-12-10
Also published as: CN109670501B

Abstract

本发明属于服务机器人技术领域，具体涉及一种基于深度卷积神经网络的物体识别与抓取位置检测方法，旨在解决现有物体识别与抓取位置检测技术实时性仍需进一步提升的问题，本发明方法预先构建并训练包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络，并基于该网络进行物体识别、定位矩形框的获取、抓取位置检测。本发明可以有效提升物体识别与抓取位置检测的实时性。

Description

基于深度卷积神经网络的物体识别与抓取位置检测方法

技术领域

本发明属于服务机器人技术领域，具体涉及一种基于深度卷积神经网络的物体识别与抓取位置检测方法。

背景技术

随着科技的不断进步，服务机器人朝着智能化的方向快速发展，并在家庭服务、安保、医疗康复等领域发挥着越来越重要的作用。物体抓取技术对机器人提供优质服务来说是必不可少的。作为物体抓取技术的重要一环，物体识别和抓取位置检测，即准确识别出物体并确定出物体上可抓取的位置，一直是学者特别关注的研究方向。就感知传感器来说，为完成物体识别和抓取位置检测，视觉传感器以其能够提供丰富的信息而成为首选。

传统的物体识别方法基于手工设计的特征，其缺陷是手工设计的特征需要丰富的专业知识且较为耗时，对物体形态和观测角度、光照强度等变化的适应性较差。深度学习以其强大的表征和建模能力被广泛应用；其中，深度卷积神经网络是研究的热点，通过监督或非监督的方式，逐层自动地学习物体的特征表示，避免了手工设计特征的繁琐低效，常用的深度卷积神经网络模型包括ZFNet网络、VGG网络等。目前常见的基于深度卷积神经网络的物体检测方法有基于区域建议的方法(Faster R-CNN等)和无区域建议的方法(例如YOLO、SSD等)，其中Faster R-CNN以其较高的精度受到关注。随着深度卷积神经网络在图像分类和目标检测等领域的有效进展，已有研究学者将其应用于抓取位置检测中。现有的物体识别与抓取位置检测方案，通常需要两个深度卷积神经网络：物体识别卷积神经网络用于识别出物体、抓取位置检测卷积神经网络用于检测出物体上可抓取的位置，这两个卷积神经网络是通过级联的方式进行连接的，然而，级联物体识别卷积神经网络与抓取检测卷积神经网络的实现方式的实时性还有待提高。

因此，如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有物体识别与抓取位置检测技术实时性仍需进一步提升的问题，本发明提出了一种基于深度卷积神经网络的物体识别与抓取位置检测方法，基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络，该方法包括以下步骤：

步骤S10，服务机器人通过安装在自身的Kinect传感器获取原始彩色图像，作为第一图像；

步骤S20，将所述第一图像压缩为第二图像；所述第二图像的预设尺寸为M×N；

步骤S30，基于所述区域建议网络提取所述第二图像的特征图G，并对所述特征图G进行候选矩形框的提取，构建第一候选矩形框集合；

步骤S40，利用感兴趣区域池化对所述第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理，得到第一特征向量；第一特征向量经所述全连接层进行处理后得到第二特征向量；

步骤S50，将所述第一候选矩形框集合中的各候选矩形框所对应的第二特征向量，分别送入所述分类器中进行类别判定，并构建第二候选矩形框集合；

步骤S60，利用所述第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整，得到各候选矩形框所对应的定位矩形框，构建定位矩形框集合；

步骤S70，对于所述定位矩形框集合中的各定位矩形框，利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置。

在一些优选实施例中，步骤S50中对所述第一候选矩形框集合中的各候选矩形框进行类别判定的步骤包括：

步骤S501，将候选矩形框对应的第二特征向量通过所述分类器，生成1×n_obj维的向量其中，n_obj为所述分类器所对应的物体类别库中物体的类别数目，V_s中的各元素分别与物体类别库中的一个类别相对应；v_ξ为该第二特征向量所对应的候选矩形框存在物体类别库中的第ξ类物体的概率，其中ξ＝1,2,…,n_obj；

步骤S502，选取V_s中最大元素值M_Vs，并确定该元素值对应的物体类别C_M。

在一些优选实施例中，在步骤S502之后，对所述第一候选矩形框集合中各候选矩形框按照步骤S503进行筛选后得到第二候选矩形框集合，步骤S503包括：

当M_Vs≥T_s时，向量V_s对应的候选矩形框及其类别C_M保留，其中，T_s为预设的阈值；否则，向量V_s对应的候选矩形框从第一候选矩形框集合中删除。

在一些优选实施例中，步骤S60中所述第一回归器用带有四个参数的向量t＝{t_x,t_y,t_w,t_h}进行表示，其中，t_x为横坐标平移量，t_y为纵坐标平移量，t_w为宽度缩放量，t_h为高度缩放量。

在一些优选实施例中，步骤S60“利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整”，其方法为：

用表征向量{x_a,y_a,w_a,h_a}对第二候选矩形框集合中的候选矩形框F_r进行表征，其中，(x_a,y_a)为F_r的中心点坐标，w_a、h_a分别为F_r的宽度和高度；

利用第一回归器对F_r进行调整，得到F_r相应的定位矩形框，用{x,y,w,h}进行表征，其中x＝t_x·w_a+x_a，y＝t_y·h_a+y_a，

在一些优选实施例中，步骤S70中抓取位置为点P₁(x₁,y₁)和点P₂(x₂,y₂)，所述第二回归器用带有四个参数的向量q＝{q_x1,q_y1,q_x2,q_y2}进行表示，其中，q_x1、q_y1分别为第一抓取点P₁所对应的横坐标平移量和纵坐标平移量，q_x2、q_y2分别为第二抓取点P₂所对应的横坐标平移量和纵坐标平移量。

在一些优选实施例中，步骤S70中“利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置”，其方法为：

第二回归器的输出结果用{x₁,y₁,x₂,y₂}进行表征，其中x₁＝w·q_x1+x，y₁＝h·q_y1+y，x₂＝w·q_x2+x，y₂＝h·q_y2+y。

在一些优选实施例中，利用训练样本，基于损失函数L_loss对所述深度卷积神经网络进行训练以获取所述区域建议网络、所述全连接层、所述分类器、所述第一回归器、所述第二回归器的参数；

其中，

所述训练样本包含三类标注信息：物体类别、标签矩形框、抓取位置的两点坐标的标签值；

所述损失函数L_loss为

该式中，

k_cls、k_{box_reg}、k_{point_reg}为预设的权值；

为第二候选矩形框集合中的第i个候选矩形框经所述分类器处理后的输出向量，其中i为自然数，且i∈[1,n_eff]；

为所述分类器的损失函数；

为所述第一回归器的损失函数；

{xⁱ,yⁱ,wⁱ,hⁱ}为第二候选矩形框集合中的第i个候选矩形框对应的第一回归器的输出，和分别表示第二候选矩形框集合中的第i个候选矩形框的表征向量和标签矩形框的表征向量；

为所述第二回归器的损失函数；

和分别表示第二候选矩形框集合中的第i个候选矩形框所对应的第二回归器输出的两个点的坐标；和表示第二候选矩形框集合中的第i个候选矩形框的抓取位置的两点坐标的标签值。

在一些优选实施例中，所述分类器的损失函数的计算方法为：

为中的最大值。

在一些优选实施例中，所述第一回归器的损失函数的计算方法为：

在一些优选实施例中，所述第二回归器的损失函数的计算方法为：

有益效果：

本发明基于深度卷积神经网络的物体识别与抓取位置检测方法，将物体识别、定位和抓取位置检测的损失函数结合在一起用于一个深度卷积神经网络的训练，通过训练后的深度卷积神经网络实现物体识别、定位和抓取位置检测三个任务，可以更加有效的提升物体识别与抓取位置检测的实时性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于深度卷积神经网络的物体识别与抓取位置检测方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于深度卷积神经网络的物体识别与抓取位置检测方法，如图1所示，基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络，该方法包括以下步骤：

步骤S20，将第一图像压缩为第二图像；第二图像的预设尺寸为M×N；

步骤S30，基于区域建议网络提取第二图像的特征图G，并对特征图G进行候选矩形框的提取，构建第一候选矩形框集合；

步骤S40，利用感兴趣区域池化对第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理，得到第一特征向量；该第一特征向量经全连接层进行处理，得到第二特征向量；

步骤S50，将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量，分别送入分类器中进行类别判定，并构建第二候选矩形框集合；

步骤S60，利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整，得到各候选矩形框所对应的定位矩形框，构建定位矩形框集合；其中，每一个定位矩形框对应一个物体；

步骤S70，对于定位矩形框集合中的各定位矩形框，利用第二回归器分别计算各定位矩形框所对应物体的抓取位置。

为了获取上述深度卷积神经网络中区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数，构建该深度卷积神经网络的损失函数，通过训练样本进行训练，从而得到上述深度卷积神经网络中区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数，具体损失函数的设置会在下文具体展开说明。

为了更清晰地对本发明基于深度卷积神经网络的物体识别与抓取位置检测方法进行说明，下面对本方发明方法一种实施例中各步骤进行展开详述。

该实施例为一种较优的实现方式，预先构建一个包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络，基于预先构建的训练样本集并结合预先设计的损失函数对该深度卷积神经网络进行训练，获取区域建议网络、全连接层、分类器、第一回归器、第二回归器的参数，并应用到本发明的基于深度卷积神经网络的物体识别与抓取位置检测方法中。

步骤S10，服务机器人通过安装在自身的Kinect传感器获取原始彩色图像，作为第一图像。

步骤S20，将第一图像压缩为第二图像；第二图像的预设尺寸为M×N。

步骤S30，基于区域建议网络提取第二图像的特征图G，并对特征图G进行候选矩形框的提取，构建第一候选矩形框集合。

本实施例中，基于第二图像，利用物体检测方法Faster R-CNN中的区域建议网络(Region Proposal Network，RPN)对图像中可能的目标位置进行候选矩形框的提取。在本实施例中，RPN包括五个卷积层，即conv1、conv2、conv3、conv4和conv5，这五个卷积层顺次连接，设置方式如下：滤波器参数分别为7×7×96、5×5×256、3×3×384、3×3×384和3×3×256，步长分别为2、2、1、1和1，均采用最大值池化的方式进行池化处理；第二图像经过conv1、conv2、conv3、conv4和conv5卷积层处理后得到特征图G。在特征图G上进行滑窗，基准窗大小记为锚箱，在每个锚箱中心按照尺寸64×64、128×128、256×256和长宽比1:1、1:2、2:1的组合生成9种尺度的矩形框；对每个矩形框，采用阈值为0.7的非极大值抑制进行筛选，得到通过筛选的第一候选矩形框集合。

本实施例中的9种尺度的矩形框通过3种预设尺寸、3种长宽比组合获得，例如3种预设尺寸分别为64×64、128×128、256×256，3种长宽比分别1:1、1:2、2:1，将3种预设尺寸分别与3种长宽比进行组合，共得到9种尺度的矩形框：长宽比1:1对应得到3种尺度的矩形框64×64、128×128、256×256，长宽比1:2对应得到3种尺度的矩形框64×128、128×256、256×512，长宽比2:1对应得到3种尺度的矩形框128×64、256×128、512×256。

步骤S40，利用感兴趣区域池化对第一候选矩形框集合中的各候选矩形框在特征图G上所对应的特征进行处理，得到第一特征向量；该第一特征向量经全连接层进行处理，得到第二特征向量。

本实施例中，对于第一候选矩形框集合中的每一个候选矩形框，利用感兴趣区域池化(RoI Pooling)对各候选矩形框在特征图G上所对应的特征进行处理，具体为：

采用空间尺度为4×4、2×2、1×1的空间金字塔进行池化(采用最大值池化的方式)，分别得到4×4×256＝16×256维、2×2×256＝4×256维、1×1×256＝1×256维向量，将这些向量结合起来作为候选矩形框的特征向量，即第一特征向量，其维度为(16+4+1)×256＝21×256；

本实施例中，用于获取第二特征向量的全连接层有两层，分别为F₁和F₂，这两层顺次连接，且每层均有1024个神经元；第一特征向量送入F₁层，F₂层的输出作为第二特征向量，其维度为1×1024。

步骤S50，将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量，分别送入分类器中进行类别判定，并构建第二候选矩形框集合。

本实施例中，将第一候选矩形框集合中的各候选矩形框所对应的第二特征向量，分别送入分类器中进行类别判定，并构建第二候选矩形框集合。对每个候选矩形框的判定具体为：

步骤S501，将候选矩形框对应的第二特征向量，送入softmax分类器进行类别判定，其中softmax分类器为一个1024×n_obj维的向量，softmax分类器的输出为1×n_obj维的向量其中，n_obj为softmax分类器所对应的物体类别库中物体的类别数目，V_s中的各元素分别与物体类别库中的一个类别相对应；v_ξ为该第二特征向量所对应的候选矩形框存在物体类别库中的第ξ类物体的概率，其中ξ＝1,2,…,n_obj。

步骤S503，当M_Vs≥T_s时，向量V_s对应的候选矩形框及其类别C_M保留，其中，T_s为预设的阈值；否则，向量V_s对应的候选矩形框从第一候选矩形框集合中删除。

通过步骤S501-S502对第一候选矩形框集合中的各候选矩形框进行类别判定，并通过步骤S503判定是否满足保留条件，将满足保留条件的候选矩形框构成第二候选矩形框集合，该集合中候选矩形框的个数为n_eff。

步骤S60，利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整，得到各候选矩形框所对应的定位矩形框，构建定位矩形框集合，其中，每一个定位矩形框对应一个物体。

本实施例中，第一回归器用带有四个参数的向量t＝{t_x,t_y,t_w,t_h}进行描述，其中，t_x为横坐标平移量，t_y为纵坐标平移量，t_w为宽度缩放量，t_h为高度缩放量。

对于第二候选矩形框集合中的候选矩形框F_r来说，具体调整过程如下：用表征向量{x_a,y_a,w_a,h_a}对候选矩形框F_r进行表征，其中，(x_a,y_a)为F_r的中心点坐标，w_a、h_a分别为F_r的宽度和高度；利用第一回归器对F_r进行调整，得到F_r相应的定位矩形框，用{x,y,w,h}进行表征，其中x＝t_x·w_a+x_a，y＝t_y·h_a+y_a，

对于步骤S60中得到的各个定位矩形框，利用第二回归器分别计算出各定位矩形框所对应物体的抓取位置，本实施例中，抓取位置用两点P₁(x₁,y₁)和P₂(x₂,y₂)进行描述；第二回归器用带有四个参数的向量q＝{q_x1,q_y1,q_x2,q_y2}进行描述，其中，q_x1、q_y1分别为第一抓取点P₁所对应的横坐标平移量和纵坐标平移量，q_x2、q_y2分别为第二抓取点P₂所对应的横坐标平移量和纵坐标平移量；第二回归器的输出结果用{x₁,y₁,x₂,y₂}进行表征，其中x₁＝w·q_x1+x，y₁＝h·q_y1+y，x₂＝w·q_x2+x，y₂＝h·q_y2+y。

下面对本发明实施例包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络的训练样本、损失函数进行说明。

训练样本包含三类标注信息，物体类别、标签矩形框、抓取位置的两点坐标的标签值。训练样本可以采用LabelImg软件制作，将每张图片标注为一个xml文件。

上述深度卷积神经网络的损失函数L_loss如公式(1)所示。

该式中，

k_cls、k_{box_reg}、k_{point_reg}为预设的权值；

为第二候选矩形框集合中的第i个候选矩形框经softmax分类器处理后的输出向量，其中i为自然数，且i∈[1,n_eff]；

为softmax分类器的损失函数；

为第一回归器的损失函数；

为第二回归器的损失函数；

再继续对损失函数中的符号进行说明：

softmax分类器的损失函数如公式(2)所示：

其中，为中的最大值；

第一回归器的损失函数如公式(3)所示，其参数的计算分别如公式(4)、(5)所示：

其中，{xⁱ,yⁱ,wⁱ,hⁱ}为第二候选矩形框集合中的第i个候选矩形框对应的第一回归器的输出，和分别表示第二候选矩形框集合中的第i个候选矩形框的表征向量和标签矩形框的表征向量。

第二回归器的损失函数如公式(6)所示，其参数的计算分别如公式(7)、(8)所示：

其中，和分别表示第二候选矩形框集合中的第i个候选矩形框所对应的第二回归器输出的两个点的坐标；和表示第二候选矩形框集合中的第i个候选矩形框的抓取位置的两点坐标的标签值。

在本发明的一个具体的实施例中，Kinect传感器倾斜向下安装，其倾斜角度为45°，其它关键预设参数可以做如下设定：M＝224，N＝224，n_obj＝4，T_s＝0.75，k_cls＝1/3，k_{box_reg}＝1/3，k_{point_reg}＝1/3。

采用本发明能够通过一个深度卷积神经网络完成物体识别、定位和抓取位置检测，提升了物体识别与抓取位置检测技术的实时性，为服务机器人在家庭、办公等环境下的物体识别与抓取位置检测提供技术支持，能够实现较好的技术效果。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，基于预先构建并训练的包含区域建议网络、全连接层、分类器、第一回归器、第二回归器的深度卷积神经网络，该方法包括以下步骤：

2.根据权利要求1所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于：

步骤S50中对所述第一候选矩形框集合中的各候选矩形框进行类别判定的步骤包括：

3.根据权利要求2所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于：

在步骤S502之后，对所述第一候选矩形框集合中各候选矩形框按照步骤S503进行筛选后得到第二候选矩形框集合，步骤S503包括：

4.根据权利要求1所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，步骤S60中所述第一回归器用带有四个参数的向量t＝{t_x,t_y,t_w,t_h}进行表示，其中，t_x为横坐标平移量，t_y为纵坐标平移量，t_w为宽度缩放量，t_h为高度缩放量。

5.根据权利要求4所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，步骤S60“利用第一回归器对第二候选矩形框集合中的各候选矩形框分别进行调整”，其方法为：

6.根据权利要求5所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，步骤S70中抓取位置为点P₁(x₁,y₁)和点P₂(x₂,y₂)，所述第二回归器用带有四个参数的向量q＝{q_x1,q_y1,q_x2,q_y2}进行表示，其中，q_x1、q_y1分别为第一抓取点P₁所对应的横坐标平移量和纵坐标平移量，q_x2、q_y2分别为第二抓取点P₂所对应的横坐标平移量和纵坐标平移量。

7.根据权利要求6所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，步骤S70中“利用所述第二回归器分别计算各定位矩形框所对应物体的抓取位置”，其方法为：

8.根据权利要求1-7任一项所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，利用训练样本，基于损失函数L_loss对所述深度卷积神经网络进行训练以获取所述区域建议网络、所述全连接层、所述分类器、所述第一回归器、所述第二回归器的参数；

其中，

所述损失函数L_loss为

该式中，

k_cls、k_{box_reg}、k_{point_reg}为预设的权值；

为所述分类器的损失函数；

为所述第一回归器的损失函数；

为所述第二回归器的损失函数；

9.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，所述分类器的损失函数的计算方法为：

其中，为中的最大值。

10.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，所述第一回归器的损失函数的计算方法为：

11.根据权利要求8所述的基于深度卷积神经网络的物体识别与抓取位置检测方法，其特征在于，所述第二回归器的损失函数的计算方法为：