CN109685141B

CN109685141B - 一种基于深度神经网络的机器人物品分拣视觉检测方法

Info

Publication number: CN109685141B
Application number: CN201811591482.7A
Authority: CN
Inventors: 王飞; 宋思远; 程栋梁; 丁亮; 王亚运; 刘振
Original assignee: Hefei Hagong Huicai Intelligent Technology Co ltd
Current assignee: Hefei Hagong Huicai Intelligent Technology Co ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2022-10-04
Anticipated expiration: 2038-12-25
Also published as: CN109685141A

Abstract

本发明涉及一种基于深度神经网络的机器人物品分拣视觉检测方法，该方法将目标的识别与检测信息、目标位置深度估计信息输入深度卷积网络，使用深度网络提取出含有复杂语义的网络特征，再通过神经网络匹配算法得到目标的三维坐标信息，得到吸取位置。与传统的目标检测相比，在扩展新物品分拣功能时仅需要添加新物品的照片，大大提高了分拣机器人通用性与可扩展性。整个分拣过程只需要借助双目相机获取图像信息，基于深度神经网络的算法提高了分拣视觉识别速度，降低了分拣系统的硬件成本和环境要求。目标检测部分与立体匹配部分均由深度神经网络实现，在0.3秒内即可完成物品分拣机器人的视觉计算。

Description

一种基于深度神经网络的机器人物品分拣视觉检测方法

【技术领域】

本发明属于计算机和人工智能领域，具体的，涉及一种基于深度神经网络的机器人物品分拣视觉检测方法。

【背景技术】

物品自动分拣技术在物品生产、物流、无人零售等领域都有着广泛的应用价值。传统的机器人分拣技术主要为不同传感器之间的组合，通过单纯特征的传递实现对分拣系统的控制。但这种检测方法灵活性差、检测速度慢、检测种类有限、对于多个类别物体混合的情境不能形成有效的目标检测、还需要对物品进行多次接触，增加了安全隐患。将机器视觉应用于物品分拣任务中不仅能极大地提高生产效率，也能进一步保证物品卫生安全。在物品分拣过程中，机器人的视觉系统对目标的正确识别和精确定位是分拣成功的先决条件，能及时为机器人的运动控制提供精确的视觉感知信号才能保证抓取任务的成功完成，是机器人物品分拣的核心技术。

物品分拣机器人视觉识别与定位分为相机标定、物体识别、立体匹配等任务。物体识别过程完成识别物体的种类、确定物体的二维位置信息任务。传统机器视觉识别方案多采用人工特征描述配合分类器分类的方式进行。其中人工特征对于物品随机位置、图像视角变化、光照变化、背景干扰等情况下的检测没有很好的鲁棒性，方法不仅耗时，而且只使用到图像中少部分特征信息，信息利用率不高，很大程度上影响实际检测效果。基于深度神经网络提取的特征，依附于神经网络的通用学习过程，具有高精度、高泛化能力和强鲁棒性，是视觉研究与应用的趋势所在。但单纯地用传统深度学习方法进行物品识别，扩展时需要针对新的样本进行多次数据采集与训练，存在训练成本高，过程繁琐等问题。

立体匹配是分拣机器人视觉系统中的关键部分，其目标是在两个或多个视点中匹配相应像素点，计算视差，求得深度信息。传统双目相机利用几何方法通过复杂的约束计算得出深度信息。但是通过几何方法利用约束信息计算深度信息的计算过程复杂，因此在对实时性要求较高的场景中会显现出不足。

【发明内容】

为了解决上述问题，本发明提出了一种基于深度神经网络的机器人物品分拣视觉检测方法，利用基于深度学习的图像匹配的方法快速而准确的识别出物体在三维坐标系下的位置，检测速度达到实时性要求，减轻了分拣人员的工作负担，进一步提升了生产线的自动化智能化水平。

本发明采用的技术方案如下：

一种基于深度神经网络的机器人物品分拣视觉检测方法，包括目标检测过程和深度估计过程，其中

所述目标检测过程包括：

(1)建立分类网络图像库；

(2)建立分类网络模型：所述分类网络模型使用DenseNet作为特征提取基础网络，包括关注层Attention Layer、DenseNet分类层，所述关注层位于DenseNet分类层之前，用于区分输入图像中的背景与物品，所述关注层由两个1x1的卷积层组成，激活函数为Softplus；所述DenseNet用于提取输入图像的特征图，在正向传播过程中将DenseNet提取到的特征图乘以关注层的输出，将结果送入DenseNet分类层，训练时损失函数为CrossEntropyLoss；

(3)基于所述分类网络图像库生成分类网络训练数据集；

(4)训练分类网络模型：使用所述训练数据集训练分类网络模型，使用反向传播算法与梯度下降函数优化网络直至收敛并达到预期；

(5)测试分类网络模型：对训练出来的分类网络模型，使用测试集图片进行测试，并根据测试结果调整超参数；

(6)建立检测目标图像数据库：确定待检测的物品，将所有物品正面、反面与侧面的图像尺寸调整成352x352像素并保存，同时将这些图像旋转90度、180度、270度并保存；

(7)提取检测目标图像数据库特征：去掉分类网络模型中的分类层，将检测目标图像数据库送入分类网络模型，得到特征输出与关注层的输出，将特征输出中属于背景的值置为0，并保存为pkl格式的特征文件；

(8)目标检测：将待检测图像尺寸调整成1280x960像素送入去掉分类层的分类网络模型，得到特征输出与关注层输出，使用关注层输出将特征输出中背景部分置0；读取保存的特征文件，与待检测图像的特征向量按照像素计算距离，得到匹配相似度，计算公式为:

式中，S_ij为待检测图像中坐标(i,j)位置处的匹配相似度，V_ij为待检测图像中坐标(i,j)位置处的特征向量，

为数据库中第p幅图像中坐标(m,n)位置处的特征向量；归一化相似度图像并进行均值滤波，取相似度最高点为检测出的物品中心点；

所述深度估计过程包括：

(1)建立立体匹配网络图像库；

(2)建立立体匹配网络模型：建立由多个卷积层构成的立体匹配网络。立体匹配网络输入为目标的左右两张图像，左图右图均通过这多层卷积提取特征，并进行相似度计算；

(3)生成立体匹配网络数据集：基于立体匹配网络图像库生成立体匹配网络数据集，立体匹配网络数据集由左图裁剪得到，即只使用原始左图进行裁剪得到立体匹配网络输入所需的左图和右图；裁剪时确保左图与对应的右图中心点相同，并控制每张原始图片相同中心点图片的数量；

(4)训练立体匹配网络：使用立体匹配网络数据集训练立体匹配网络，使用反向传播算法与adam优化函数直至网络收敛并达到预期；

(5)测试立体匹配网络：取消立体匹配网络中的Logsoftmax激活函数层，将实际拍摄的目标左图与右图送入立体匹配网络并提取特征，按照像素点进行特征匹配并计算相似度生成视差图，最后通过相机参数生成深度图与三维点云信息，根据三维点云的质量继续调整网络参数直至达到预期效果；

(6)立体匹配：按照目标检测过程得到的物品位置裁剪图像，将原始的左右图按行进行裁剪，将裁剪后的左图右图送入立体匹配网络，在对应的每一行按照像素计算相似度，得到物品附近的视差图与三维点云信息，最后滤掉噪音，并计算出机器人在其坐标系下的吸取位置。

进一步地，所述目标检测过程的步骤2包括：将分类网络图像库按照7:3的比例划分为训练集与测试集，训练集图像尺寸调整成352x352像素并随机裁剪成224x224像素，测试集图像尺寸调整成224x224像素，不做任何数据增广。

进一步地，所述目标检测过程的步骤4中使用的优化函数为随机梯度下降法SGD。

进一步地，所述目标检测过程的步骤4中，固定DenseNet分类层前的参数，仅仅训练关注层与分类层，在前几个迭代周期epoch内，批处理数量batch大小为128，学习率为0.0001，动量为0.9；在后几个epoch时，batch大小为64，学习率为0.00001，动量为0.9。

进一步地，所述深度估计过程的步骤1包括：标定双目相机，使用双目相机采集图像，得到分拣环境下的左图与右图，对得到的图像进行畸变校正与立体校正，确保图像行对齐，从而得到立体匹配图像，基于得到的多个立体匹配图像，建立立体匹配网络图像库。

进一步地，所述立体匹配网络由9层卷积构成，卷积核大小为7，激活函数为Logsoftmax。

进一步地，立体匹配网络的输入为目标的左图与右图，经过特征提取生成左右特征图，并计算中心位置相似度，训练时采用的损失函数是Smooth L1 loss。

进一步地，所述深度估计过程的步骤3包括：在原始左图中以随机点为中心裁剪55x55像素尺寸的图像为左图、55x175像素尺寸的图像为右图，每张原始左图裁剪128次，同时确保每张原始左图裁剪出的图像有70％为同一中心点，30％为不同中心点。

进一步地，所述分类网络图像库将搜集到的物品图片按照类别放在对应的文件夹下，图片标签为文件夹名称，物品图片包含以下特征：所有图片为RGB三通道，图片中仅包含单一物品，图片背景为纯色。

本发明的有益效果为：不需要耗费大量时间人工设计繁琐的特征，省去了成本较高的新数据训练过程，方案更为简便易行。检测速度达到实时性要求，减轻了分拣人员的工作负担，进一步提升了生产线的自动化智能化水平。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明方法的流程框图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

参见附图1，为了实现机器人物品分拣，其实质是要实现一种三维视觉检测与定位的方法，该方法包括目标检测过程与深度估计过程两部分，下面对其分别进行说明。

目标检测过程：

为了实现机器人的物品分拣，首先机器人需要识别目标，通过机器人的视觉检测，实现目标检测过程，其具体步骤如下：

(1)建立分类网络图像库。

为了训练目标检测的神经网络，首先需要建立分类网络图像库，具体的，将搜集到的物品图片按照类别放在对应的文件夹下，图像标签为文件夹名称，物品图片包含以下特征：所有图片为RGB三通道，物品中仅包含单一物品，图像背景为纯色。

(2)建立分类网络模型。

所述分类网络模型使用DenseNet作为特征提取基础网络，包括关注层AttentionLayer、DenseNet分类层。

特征提取基础网络采用DenseNet，在DenseNet分类层之前加入关注层，所述关注层用于区分输入图像中的背景与物品，关注层由两个1x1的卷积层组成，激活函数为Softplus，可以表示为：

f(x)＝log(1+e^x) (1)

式中，x为网络中相应卷积层的输出向量。

所述DenseNet用于提取输入图像的特征图，在正向传播过程中将DenseNet提取到的特征图乘以关注层的输出，将结果送入DenseNet分类层，训练时损失函数为CrossEntropyLoss，可以表示为：

式中，m为训练样本组数，θ为网络模型参数向量，x⁽ⁱ⁾表示第i组样本数据，y⁽ⁱ⁾表示第i组数据的类别标记，h_θ(x⁽ⁱ⁾)为假设函数，定义为：

(3)生成分类网络训练数据集。

将分类网络图像库按照7:3的比例划分为训练集与测试集，训练集图像尺寸调整成352x352像素并随机裁剪成224x224像素，测试集图像尺寸调整成224x224像素，不做任何数据增广。将图像与类别标签整理成可供深度网络读写并训练的文件。

(4)训练分类网络模型。

在所述训练数据集上预训练DenseNet，使用反向传播算法与梯度下降函数优化网络直至收敛并达到预期。使用的优化函数为随机梯度下降法SGD，其参数更新表达式为：

式中，θ_j为网络模型的第j个参数，

为第i组数据中的第j个数值，α为网络学习率。

在训练实际网络时，固定DenseNet分类层前的参数，仅仅训练关注层与分类层。在前几个迭代周期epoch内，批处理数量batch大小为128，学习率为0.0001，动量为0.9；在后几个epoch时，batch大小为64，学习率为0.00001，动量为0.9。

(5)测试分类网络模型。

对训练出来的分类网络模型，使用测试集图片进行测试，并根据测试结果调整超参数，确保分类准确率达到90％以上。

(6)建立检测目标图像数据库。

确定待检测的物品，将所有物品正面、反面与侧面的图像尺寸调整成352x352像素并保存，同时将这些图像旋转90度、180度、270度并保存。

(7)提取检测目标图像数据库特征。

去掉分类网络模型中的分类层，将检测目标图像数据库送入分类网络模型，得到特征输出与关注层的输出。设置关注层的阈值为0.4，小于0.4的区域为背景，大于0.4的区域为物品。将特征输出中属于背景的值置为0，并保存为pkl格式的特征文件。

(8)目标检测。

将待检测图像尺寸调整成1280x960像素送入去掉分类层的分类网络模型，得到特征输出与关注层输出，使用关注层输出将特征输出中背景部分置0。读取保存的特征文件，与待检测图像的特征向量按照像素计算距离，得到匹配相似度，计算公式为:

式中，S_ij为待检测图像中(i,j)位置处的匹配相似度，V_ij为待检测图像中(i,j)位置处的特征向量，

为数据库中第p幅图像中(m,n)位置处的特征向量。

归一化相似度图像并进行均值滤波，取相似度最高点为检测出的物品中心点。

深度估计过程：

机器人在从视觉图像中识别出物品目标后，需要确定该目标的位置，但是对于输入图像而言，其只能取得目标在图像平面上的位置，目标真实的三维位置还需要进行深度估计。具体说明如下：

(1)建立立体匹配网络图像库。

标定双目相机，使用双目相机采集图像，得到分拣环境下的左图与右图，对得到的图像进行畸变校正与立体校正，确保图像行对齐，从而得到立体匹配图像，基于得到的多个立体匹配图像，建立立体匹配网络图像库。

(2)建立立体匹配网络模型。

建立由多个卷积层构成的立体匹配网络。立体匹配网络输入为目标的左右两张图像，左图右图均通过这多层卷积提取特征，并进行相似度计算。

优选的，所述立体匹配网络由9层卷积构成，卷积核大小为7，激活函数为Logsoftmax，可以表示为：

式中，x为网络经卷积后每个像素的输出向量，维度为m。

立体匹配网络的输入为目标的左图与右图，经过特征提取生成左右特征图，并计算中心位置相似度，训练时采用的损失函数是Smooth L1 loss，其中Smooth L1的表达式为：

式中，x为训练样本数据。

(3)生成立体匹配网络数据集。

基于立体匹配网络图像库生成立体匹配网络数据集，立体匹配网络数据集由左图裁剪得到，即只使用原始左图进行裁剪得到立体匹配网络输入所需的左图和右图。

通过随机中心裁剪的方法得到左图与右图，右图的宽度稍大于左图，裁剪时确保左图与对应的右图中心点相同，并控制每张原始图片相同中心点图片的数量。

具体地，在原始左图中以某随机点为中心裁剪55x55像素尺寸的图像为左图、55x175像素尺寸的图像为右图，每张原始左图裁剪128次，同时为保证训练收敛，需要确保每张原始左图裁剪出的图像有70％为同一中心点，30％为不同中心点。

(4)训练立体匹配网络。

使用立体匹配网络数据集训练立体匹配网络，使用反向传播算法与adam优化函数直至网络收敛并达到预期。

具体的，随机生成立体匹配网络的初始参数，使用Adam作为优化函数，，其参数更新表达式为：

式中，μ为动量因子，η为学习率，ν为衰减速率，ε为步长，

和

分别为m_t和n_t的校正，而m_t和n_t的计算公式分别为：

m_t＝μ·m_t-1+(1-μ)·g_t (9)

式中，g_t为参数梯度。

训练时，batch大小为128，学习率为0.1，每过16个epoch学习率减少10倍，动量为0.9。

(5)测试立体匹配网络。

取消立体匹配网络中的Logsoftmax激活函数层，将实际拍摄的目标左图与右图送入立体匹配网络并提取特征，按照像素点进行特征匹配并计算相似度生成视差图，最后通过相机参数生成深度图与三维点云信息，根据三维点云的质量继续调整网络参数直至达到预期效果。

(6)立体匹配。

按照目标检测过程得到的物品位置裁剪图像，将原始的左右图按行进行裁剪，宽为原图尺寸，高为100像素，从而提高立体匹配速度。将裁剪后的左图右图送入立体匹配网络，在对应的每一行按照像素计算相似度，得到物品附近的视差图与三维点云信息，最后滤掉噪音，并计算出机器人在其坐标系下的吸取位置。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种基于深度神经网络的机器人物品分拣视觉检测方法，其特征在于，包括目标检测过程和深度估计过程，其中

所述目标检测过程包括：

(1)建立分类网络图像库；

(2)建立分类网络模型：所述分类网络模型使用DenseNet作为特征提取基础网络，并且所述分类网络模型包括关注层Attention Layer、DenseNet分类层，所述关注层位于DenseNet分类层之前，用于区分输入图像中的背景与物品，所述关注层由两个1x1的卷积层组成，激活函数为Softplus；所述DenseNet用于提取输入图像的特征图，在正向传播过程中将DenseNet提取到的特征图乘以关注层的输出，将结果送入DenseNet分类层，训练时损失函数为CrossEntropyLoss；

(3)基于所述分类网络图像库生成分类网络训练数据集；

(7)提取检测目标图像数据库特征：去掉分类网络模型中的分类层，将检测目标图像数据库送入分类网络模型，得到特征输出与关注层的输出，将特征输出中属于背景的值置为0，并保存为特征文件；

所述深度估计过程包括：

(1)建立立体匹配网络图像库；

(2)建立立体匹配网络模型：建立由多个卷积层构成的立体匹配网络，立体匹配网络输入为目标的左右两张图像，左图右图均通过这多层卷积提取特征，并进行相似度计算；

2.根据权利要求1所述的方法，其特征在于，所述目标检测过程的步骤3包括：将分类网络图像库按照7:3的比例划分为训练集与测试集，训练集图像尺寸调整成352x352像素并随机裁剪成224x224像素，测试集图像尺寸调整成224x224像素，不做任何数据增广。

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述目标检测过程的步骤4中使用的优化函数为随机梯度下降法SGD。

4.根据权利要求3所述的方法，其特征在于，所述目标检测过程的步骤4中，固定DenseNet分类层前的参数，仅仅训练关注层与分类层。

5.根据权利要求1-2任意一项所述的方法，其特征在于，所述深度估计过程的步骤1包括：标定双目相机，使用双目相机采集图像，得到分拣环境下的左图与右图，对得到的图像进行畸变校正与立体校正，确保图像行对齐，从而得到立体匹配图像，基于得到的多个立体匹配图像，建立立体匹配网络图像库。

6.根据权利要求1-2任意一项所述的方法，其特征在于，所述立体匹配网络由9层卷积构成，卷积核大小为7，激活函数为Logsoftmax。

7.根据权利要求6所述的方法，其特征在于，立体匹配网络的输入为目标的左图与右图，经过特征提取生成左右特征图，并计算中心位置相似度，训练时采用的损失函数是Smooth L1 loss。

8.根据权利要求1所述的方法，其特征在于，所述深度估计过程的步骤3包括：

在原始左图中以随机点为中心裁剪55x55像素尺寸的图像为左图、55x175像素尺寸的图像为右图，每张原始左图裁剪128次，同时确保每张原始左图裁剪出的图像有70％为同一中心点，30％为不同中心点。

9.根据权利要求1所述的方法，其特征在于，所述分类网络图像库将搜集到的物品图片按照类别放在对应的文件夹下，图片标签为文件夹名称，物品图片包含以下特征：所有图片为RGB三通道，图片中仅包含单一物品，图片背景为纯色。