CN112651423A

CN112651423A - 一种智能视觉系统

Info

Publication number: CN112651423A
Application number: CN202011378142.3A
Authority: CN
Inventors: 梁国远; 梁雨; 陈帆; 宿亚浩; 吴新宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-04-13

Abstract

本申请属于电子信息技术领域，特别是涉及一种智能视觉系统。现有技术在遮挡，光照，杂乱等现实环境的挑战下，难以取得较好的物体分割和姿态估计效果。本申请提供了一种智能视觉系统，包括语义分割单元和姿态估计单元，所述语义分割单元与所述姿态估计单元通信连接；所述语义分割单元，用于在确定分割掩码后，从场景中裁剪出对应物体的彩色图像和深度图像，然后将裁剪后的目标图像传送至所述姿态估计单元；所述姿态估计单元，用于对所述目标图像进行特征提取，然后将所述特征嵌入融合在一起，经过处理获得更有效的特征表示，得到输出物体姿态。可以提出更有用的特征，有效地提高系统性能。

Description

一种智能视觉系统

技术领域

本申请属于电子信息技术领域，特别是涉及一种智能视觉系统。

背景技术

智能视觉分析是指计算机图像视觉分析技术，通过将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标。近年来，随着人工智能和机器人技术的快速发展，越来越多的智能工业机器人被部署在传统的流水线上，取代人工操作。这些机器人通常配备有智能视觉系统，使其不仅可以检测工作空间中的零件，还可以在采取进一步的操作(如抓取、旋转、移动、装配等)之前估计它们的姿势。除了工业机器人外，越来越多的医疗机器人和家庭服务机器人等也逐渐出现在公众视野，对这些智能机器人来说，精确的物体识别和6D位姿估计是其与现实世界交互的重要前提。此外，物体识别和姿态估计在计算机视觉领域其他重要课题中，也发挥着不可替代的作用，如虚拟现实、增强现实、自动驾驶等。随着深度学习技术的蓬勃发展及其在视觉任务中良好的性能表现，使得卷积神经网络在计算机视觉领域各个方向都取得了重大的突破。

现有技术在遮挡，光照，杂乱等现实环境的挑战下，难以取得较好的物体分割和姿态估计效果。

发明内容

1.要解决的技术问题

基于现有技术在遮挡，光照，杂乱等现实环境的挑战下，难以取得较好的物体分割和姿态估计效果的问题，本申请提供了一种智能视觉系统。

2.技术方案

为了达到上述的目的，本申请提供了一种智能视觉系统，包括语义分割单元和姿态估计单元，所述语义分割单元与所述姿态估计单元通信连接；所述语义分割单元，用于在确定分割掩码后，从场景中裁剪出对应物体的彩色图像和深度图像，然后将裁剪后的目标图像传送至所述姿态估计单元；所述姿态估计单元，用于对所述目标图像进行特征提取，然后将所述特征嵌入融合在一起，经过处理获得更有效的特征表示，得到输出物体姿态。

本申请提供的另一种实施方式为：所述语义分割单元包括编码器子单元和解码器子单元，所述编码器子单元，用于提取不同尺度的特征；所述解码器子单元，用于多尺度特征融合，并输出逐像素分类。

本申请提供的另一种实施方式为：所述编码器子单元由5个最大池化层和16个卷积层组成，所述解码器子单元由3个多尺度特征融合模块、2个上采样层和12个卷积层组成。

本申请提供的另一种实施方式为：所述多尺度特征融合模块包括上采样层和卷积层，所述多尺度特征融合模块通过密集连接的方式聚集低层和高层特征，提高对图像的理解能力。

本申请提供的另一种实施方式为：所述姿态估计单元包括特征提取子单元、特征融合子单元和姿态回归子单元，所述特征提取子单元用于提取特征信息，所述特征融合子单元用于对所述特征信息进行融合，所述姿态回归子单元用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

本申请提供的另一种实施方式为：所述特征提取子单元包括颜色信息提取模块和几何信息提取模块；所述颜色信息提取模块采用全卷积网络，所述几何信息提取模块采用基于PointNet的网络。

本申请提供的另一种实施方式为：所述特征融合子单元包括位置注意力模块、通道注意力模块、全局特征提取模块，将位置注意力模块、通道注意力模块和全局特征提取模块的输出特征融合起来，输入到姿态回归子单元中。

本申请提供的另一种实施方式为：所述位置注意力模块包括3个卷积层和1个归一化层，所述通道注意力模块包括1个归一化层，所述全局特征提取模块包括卷积层和平均池化层。

本申请提供的另一种实施方式为：所述姿态回归子单元包括姿态回归模块和姿态优化模块，用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

本申请提供的另一种实施方式为：所述姿态回归模块为位姿预测器，所述位姿预测器包含几个一维卷积层，用于对每个像素估计出一个姿态和置信度，并选择置信度最大的姿态作为物体6D姿态；所述姿态优化模块为迭代优化网络，用于优化所述物体6D姿态。

3.有益效果

与现有技术相比，本申请提供的智能视觉系统的有益效果在于：

本申请提供的智能视觉系统，为基于深度神经网络的物体识别和6D姿态估计智能视觉系统。

本申请提供的智能视觉系统，针对智能制造、自动驾驶等应用场景的需求，设计一个可以在遮挡、杂乱的现实环境中准确和高效地进行物体识别和姿态估计的智能视觉系统。

本申请提供的智能视觉系统，可以有效提高姿态估计的准确率。

本申请提供的智能视觉系统，提出了一种新的分割网络，利用密集连接的方式聚集网络中不同层的多尺度特征，为逐像素分类提供丰富的语义信息。

本申请提供的智能视觉系统，在姿态估计单元中引入了位置注意力模块和通道注意力模块，可以提出更有用的特征，有效地提高系统性能。

附图说明

图1是本申请的智能视觉系统原理示意图；

图2是本申请的语义分割单元示意图；

图3是本申请的姿态估计单元正示意图；

图4是本申请的位置注意力模块示意图；

图5是本申请的通道注意力模块示意图；

图6是本申请的定性分析结果示意图；

图中：1-语义分割单元、2-姿态估计单元、3-位置注意力模块、4-通道注意力模块、5-全局特征提取模块、6-姿态回归子单元。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

参见图1～6，本申请提供一种智能视觉系统，包括语义分割单元1和姿态估计单元2，所述语义分割单元1与所述姿态估计单元2通信连接；所述语义分割单元1，用于在确定分割掩码后，从场景中裁剪出对应物体的彩色图像和深度图像，然后将裁剪后的目标图像传送至所述姿态估计单元2；所述姿态估计单2元，用于对所述目标图像进行特征提取，然后将所述特征嵌入融合在一起，经过处理获得更有效的特征表示，得到输出物体姿态。

本申请是一种基于深度学习的物体识别和6D姿态估计方法。包括语义分割单元1和姿态估计单元2。首先在语义分割单元1中应用了多尺度信息融合模块，以提取语义信息更加丰富的特征，得到更好的分割结果，然后将得到的分割结果的边界框和对应的点云(深度图转换得到)输入到姿态估计网络。在姿态估计单元2中，首先利用两个骨干网络提取到颜色特征和几何特征，然后将这两个特征拼接起来，分别送入位置注意力模块3、通道注意力模块4和全局信息提取模块5。接着将这三个模块得到的特征融合起来送入一个位姿预测器6即姿态回归器，对每个像素估计出一个姿态和置信度，并选择置信度最大的姿态作为全局姿态。

进一步地，所述语义分割单元1包括编码器子单元和解码器子单元，所述编码器子单元，用于提取不同尺度的特征；所述解码器子单元，用于多尺度特征融合，并输出逐像素分类。

进一步地，所述编码器子单元由5个最大池化层和16个卷积层组成，所述解码器子单元由3个多尺度特征融合模块、2个上采样层和12个卷积层组成。

进一步地，所述多尺度特征融合模块包括上采样层和卷积层，所述多尺度特征融合模块通过密集连接的方式聚集低层和高层特征，提高对图像的理解能力。

该语义分割单元1框架如图2所示。整个网络由两部分组成：编码器子单元图2(A左)和解码器在单元图2(A右)。该编码器子单元由5个最大池化层和16个卷积层组成，用于提取不同尺度的特征，每次经过池化后，特征尺寸减半，通道数增加。在解码器子单元中，多尺度特征融合模块(MFFM)实现了多尺度特征融合，并通过最终的卷积和归一化层输出逐像素分类。解码网络由3个MFFM、2个上采样层和12个卷积层组成。

在卷积神经网络中，不同大小的特征映射不仅具有不同的感受野，而且通常包含互补信息。因此，融合不同尺度的特征是提高网络性能的重要手段。理论上，底层特征包含更多的几何细节和较少的语义信息。相反，高层特征映射会丢弃一些几何细节，保留更多的语义信息。因此，采用一种新的多尺度融合模块，通过密集连接的方式有效地聚集低层和高层特征，从而提高网络对图像的理解能力。

如图2(B)所示，解码器子单元中的每个MFFM层都从两个数据源获取特征输入：(1)与当前MFFM层分辨率相同或更低的编码器子单元；(2)解码器子单元中的当前MFFM层的前一层。首先，所有比当前层尺寸小的特征输入都将被上采样到和当前层一样的分辨率，然后每一个特征都将通过一个单独的卷积层，最后聚集在一起并输出。对于来自编码器子单元的输入，卷积输出通道数被设置为64以减少计算复杂性。对于来自前一层的输入，卷积输出通道数保持不变，以尽可能保留来自前一层的信息。图2(A)包含不同MFFM层的输入，可以看出，不同的MFFM层通常具有不同数量的输入层。COCN为卷积输出通道数，CICIN为卷积输入通道数。

进一步地，所述姿态估计单元2包括特征提取子单元、特征融合子单元和姿态回归子单元，所述特征提取子单元用于提取特征信息，所述特征融合子单元用于对所述特征信息进行融合，所述姿态回归子单元用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

进一步地，所述特征提取子单元包括颜色信息提取模块和几何信息提取模块；所述颜色信息提取模块采用全卷积网络，所述几何信息提取模块采用基于PointNet的网络。

进一步地，所述特征融合子单元包括位置注意力模块3、通道注意力模块4、全局特征提取模块5，将位置注意力模块3、通道注意力模块4和全局特征提取模块5的输出特征融合起来，输入到姿态回归子单元6中。

进一步地，所述位置注意力模块包括3个卷积层和1个归一化层，所述通道注意力模块包括1个归一化层，所述全局特征提取模块包括卷积层和平均池化层。

进一步地，所述姿态回归子单元6包括姿态回归模块和姿态优化模块，用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

进一步地，所述姿态回归模块为位姿预测器，所述位姿预测器包含几个一维卷积层，用于对每个像素估计出一个姿态和置信度，并选择置信度最大的姿态作为物体6D姿态；所述姿态优化模块为迭代优化网络，用于优化所述物体6D姿态。

如图3所示(A)特征提取阶段：颜色特征嵌入采用全卷积网络提取，几何特征嵌入采用基于点网的网络提取。(B)特征融合阶段：两个特征嵌入融合在一起，然后经过空间注意模块、通道注意力模块和全局特征提取模块分别生成三类特征，并将这些特征融合起来输入到姿态回归网络。(C)姿态回归阶段：利用由多个一维卷积组成的姿态回归网络对6D位姿参数和置信度进行预测。

该姿态估计单元2即6D姿态估计网络的架构如图3所示。整个姿态估计单元2由三个阶段组成：特征提取阶段，图3(A)；特征融合阶段，图2(B)；和姿态回归阶段，图3(C)。

RGB图像和深度图分别包含了物体的颜色信息和几何信息。虽然RGB图像和深度图像的存储格式相似，但物理意义和分布空间却大不相同。因此，为了充分利用这两种信息，我们使用两个卷积神经网络分别提取颜色和几何特征，如图3(A)所示。

普通的神经网络通常对所有特征都一视同仁。然而实际上，有些特征包含了更多的关键信息，应该引起更多的关注。为了突出重要特征，抑制不必要的特征，采用三个模块：位置注意力模块3(PAM)、通道注意模块4(CAM)和全局特征提取模块5(GFEM)。在特征融合阶段，将颜色特征和几何特征串接并反馈到这些模块中，使网络能够自适应地捕捉局部特征和全局特征相关性，进而为姿态预测器提供更好的特征。

位置注意力模块3：对于一个指定位置的输入特征，它将被所有位置上的特征加权和更新，权重为相应的两个特征之间的相似性。因它通过所有特征与该特征的相似性来更新特征的权值，因此，相似特征越多对输入特征的影响就越大。图4显示了该过程。

尺寸为(C×N)的输入特征矩阵分别通过两个卷积层，得到两个新的特征矩阵。这两个新矩阵的维数在经过卷积后从C变为C'。接着将第一个矩阵转置后和第二个矩阵相乘，然后进行归一化运算，得到空间注意力矩阵(N×N)。同时，输入矩阵通过第三个卷积层得到一个新的矩阵(C×N)，然后将这个矩阵乘以特征相似度矩阵来聚合全局特征(C×N)。最后，将原始特征加上全局特征得到输出特征(C×N)。

通道注意力模块4：对于任何两个通道特征，都可以使用注意机制来捕获通道之间的依赖关系。通道注意力和位置注意力计算类似，不同的在计算两个通道的关系之前，我们没有使用卷积层而是直接通过输入矩阵计算得到空间注意力矩阵(C×C)。图5展示了通道注意力模块的计算过程。

全局特征提取模块5：物体的全局特征对于姿态估计任务非常重要。这里使用卷积层来调整特征，并应用平均池化层来获取全局特征。

最后将位置注意力模块3、通道注意力模块4和全局特征提取模块5的输出特征串联起来，输入到一个位姿预测器6中，该位姿预测器6由几个一维卷积层组成，用于对6D位姿参数和置信度进行回归。

进一步地，还包括迭代优化单元，所述迭代优化单元与所述姿态估计单2元通信连接；所述迭代优化单元，用于优化所述输出图像。为了进一步提高位姿估计的精度，采用了迭代优化单元调整位姿。

目前物体识别主要分为图像分类、目标检测和语义分割几个类别，采用可以对图像进行像素级别分类的语义分割技术，可以更好地处理遮挡问题。

物体的6D姿态又叫6D位姿，它代表物体所在坐标系和相机坐标系之间的旋转变换矩阵R和平移变换向量t。从输入数据类型来看，姿态估计可以分为基于RGB图像的姿态估计，基于点云/深度图以及基于RGB-D数据的姿态估计三种类别。

如图1所示，本申请所提方法主要分为两个流程：语义分割单元1和姿态估计单元2。首先，利用密集连接的方式对不同尺度的特征进行聚合，建立了一个基于编码器-解码器的分割网络。在确定分割掩码后，从场景中裁剪出对应物体的RGB和深度图像。然后将裁剪后的目标图像送入姿态估计单元2即6D姿态预测网络，该网络利用两个主干网络分别提取颜色和几何特征。然后将二者融合在一起，经过通道注意模块4、位置注意模块3和全局特征提取模块5，获得更有效的特征表示。最后，采用迭代优化单元来优化姿态预测器的输出。

在姿态估计两个基准数据集YCB-Video和LineMOD上做了和现有最好方法的对比实验。定量结果如表1所示，采用了通用评价指标ADD(平均距离)<2cm的百分比来进行评价验证。可以看到，得益于我们提出的新型网络结构，在两个基准数据集上取得了比现有方法更好的效果。

表1姿态估计数据集上的定量结果(％)

	现有方法	本方法
			YCB-Video(ADD<2cm)	73.7	78.0
LineMOD(ADD<2cm)	94.3	96.9

定性分析

为了更直接地对比，可视化了YCB-Video数据集上的一些结果。如图6所示，其中(A)是数据集中的原始图像，(B)和(D)分别是文献[4]和本方法的分割结果，(C)和(E)分别是现有方法和本申请的姿态估计结果，不同的颜色表示不同的物体类别。在获取分割掩模后，提取图像中每个物体的像素区域。如果物体深度图中的有效像素数小于某个阈值，则将其识别为无效物体，不估计其姿态的情况。计算所有有效物体的点云，并对每个点进行姿态变换。然后将它在2D图像中的投影被叠加在物体区域上，如图6(C)和(E)所示。

如左图第二栏所示，现有方法对碗的姿态预测与实际方向相去甚远，而本申请给出了一个更正确的预测，显示了它在处理对称物体方面的优势。对于一些纹理较差的物体，如第一列和第四列中的香蕉，可以看到现有方法有一些明显的误差，但本申请在视觉上没有明显的误差。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的或范围所包含的全部修改。

Claims

1.一种智能视觉系统，其特征在于：包括语义分割单元和姿态估计单元，所述语义分割单元与所述姿态估计单元通信连接；

所述语义分割单元，用于在确定分割掩码后，从场景中裁剪出对应物体的彩色图像和深度图像，然后将裁剪后的目标图像传送至所述姿态估计单元；

所述姿态估计单元，用于对所述目标图像进行特征提取，然后将所述特征嵌入融合在一起，经过处理获得更有效的特征表示，得到输出物体姿态。

2.如权利要求1所述的智能视觉系统，其特征在于：所述语义分割单元包括编码器子单元和解码器子单元，所述编码器子单元，用于提取不同尺度的特征；所述解码器子单元，用于多尺度特征融合，并输出逐像素分类。

3.如权利要求2所述的智能视觉系统，其特征在于：所述编码器子单元由5个最大池化层和16个卷积层组成，所述解码器子单元由3个多尺度特征融合模块、2个上采样层和12个卷积层组成。

4.如权利要求3所述的智能视觉系统，其特征在于：所述多尺度特征融合模块包括上采样层和卷积层，所述多尺度特征融合模块通过密集连接的方式聚集低层和高层特征，提高对图像的理解能力。

5.如权利要求1所述的智能视觉系统，其特征在于：所述姿态估计单元包括特征提取子单元、特征融合子单元和姿态回归子单元，所述特征提取子单元用于提取特征信息，所述特征融合子单元用于对所述特征信息进行融合，所述姿态回归子单元用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

6.如权利要求5所述的智能视觉系统，其特征在于：所述特征提取子单元包括颜色信息提取模块和几何信息提取模块；所述颜色信息提取模块采用全卷积网络，所述几何信息提取模块采用基于PointNet的网络。

7.如权利要求5所述的智能视觉系统，其特征在于：所述特征融合子单元包括位置注意力模块、通道注意力模块、全局特征提取模块，将位置注意力模块、通道注意力模块和全局特征提取模块的输出特征融合起来，输入到姿态回归子单元中。

8.如权利要求7所述的智能视觉系统，其特征在于：所述位置注意力模块包括3个卷积层和1个归一化层，所述通道注意力模块包括1个归一化层，所述全局特征提取模块包括卷积层和平均池化层。

9.如权利要求5所述的智能视觉系统，其特征在于：所述姿态回归子单元包括姿态回归模块和姿态优化模块，用于对6D位姿参数和置信度进行回归预测以及位姿优化调整。

10.如权利要求9所述的智能视觉系统，其特征在于：所述姿态回归模块为位姿预测器，所述位姿预测器包含几个一维卷积层，用于对每个像素估计出一个姿态和置信度，并选择置信度最大的姿态作为物体6D姿态；所述姿态优化模块为迭代优化网络，用于优化所述物体6D姿态。