CN110598771A

CN110598771A - 一种基于深度语义分割网络的视觉目标识别方法和装置

Info

Publication number: CN110598771A
Application number: CN201910818625.1A
Authority: CN
Inventors: 李春宾
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-20

Abstract

本申请公开了一种基于深度语义分割网络的视觉目标识别方法和装置，该方法在深度卷积网络CNN上构建带迂回卷积的深度残差网络ResNet，通过深度残差网络卷积特征图，消除深度卷积网络CNN中池化层，用于减少所述特征图对应特征参数的数量并增加特征映射的视场，分割所述特征图并输出；基于场景标记的结果从输入场景中提取对象点，通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，确定最佳的3D对象姿势。本申请优化了基于CNN的深度语义分割方法，可同时检测和识别多个对象，提高识别准确率。

Description

一种基于深度语义分割网络的视觉目标识别方法和装置

技术领域

本申请涉及视觉识别技术领域，特别是涉及一种基于深度语义分割网络的视觉目标识别方法和装置。

背景技术

机器人依靠强大的视觉感知系统来处理复杂的随机对象拾取任务。这样的系统通常需要检测多个对象，对对象类型进行分类并估计对象的3D姿态，这是机器人操纵其正确有效地完成任务的必要信息。

对于物体检测，通常用一种有效的基于边缘的分层模板匹配算法，该算法测量参考和查询边缘模板之间的相似性，以检测感兴趣的对象(OOI)。进一步优化算法提出了具有卷积神经网络(R-CNN)的图像分割，使用2D边界框快速且精确地检测多个对象。更快的R-CNN算法是对象检测中的强大工具，可用于多种应用，例如，使用更快的R-CNN算法来检测OOI并使用Super4PCS算法来估计其姿态。最近，也出现了一种YOLOv2算法，它是一种实时物体检测算法，具有比更快的R-CNN更好的检测率。还有一些扩展的工作也基于YOLOv2算法；例如，使用YOLOv2算法来检测OOI，同时使用从场景深度图像提取的OOI的点来估计其3D姿势。

实现物体检测和识别的另一种方法是对物体像素级分割。在ARC的仓库拣选案例中提出了一种基于RGB-D数据的逐像素多类分割方法，该方法可以在混乱的场景中可靠地分割对象，并且是获胜进入的关键组成部分。而近期，一些研究关注具有深度学习的像素级语义图像分割，提出通过端到端的像素到像素学习来训练完全卷积网络(FCN)，这是使用FCN进行像素方式语义分割的第一项工作。应用FCN从RGB-D图像分割对象OOI，然后通过将对象OOI的分割点与预扫描的3D模型对齐来估计其3D姿势。但这一方法中，由于采用的完全卷积网络FCN同时检测和识别多个对象效果差，时间长，准确率也低于90％，另外基于模型的姿势估计方法来估计IOO的3D姿势，预估效果也较差。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于深度语义分割网络的视觉目标识别方法，包括：

从数据集中获取作为对象的特征图；

在深度卷积网络CNN上构建带迂回卷积的深度残差网络ResNet，通过深度残差网络卷积特征图，消除深度卷积网络CNN中池化层，用于减少所述特征图对应特征参数的数量并增加特征映射的视场，分割所述特征图并输出；

基于场景标记的结果从输入场景中提取对象点，通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，确定最佳的3D对象姿势。

优选地，在对所述特征图进行分割时，采用的是通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

优选地，对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

优选地，在确定最佳的3D对象姿势的过程中，包括：

先使用快速点特征直方图算法FPFH和随机抽样一致性算法RANSAC估计所述对象的初始姿势，所述通过使用多维直方图推广点周围的平均曲率来编码特征点的k邻域几何属性，然后再通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，进而确定最佳的3D对象姿势。

根据本申请的另一个方面，提供了一种基于深度语义分割网络的视觉目标识别装置，包括：

对象获取模块，其配置成从数据集中获取作为对象的特征图；

对象分割模块，其配置成在深度卷积网络CNN上构建带迂回卷积的深度残差网络ResNet，通过深度残差网络卷积特征图，消除深度卷积网络CNN中池化层，用于减少所述特征图对应特征参数的数量并增加特征映射的视场，分割所述特征图并输出；

特征提取模块，其配置成基于场景标记的结果从输入场景中提取对象点，通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，确定最佳的3D对象姿势。

优选地，在所述对象获取模块中，其具体配置成通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

优选地，在对象分割模块中，其还配置成对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

优选地，在所述特征提取模块中，具体配置成：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行如上所述的方法。

本申请所提供的技术方案，优化了基于CNN的深度语义分割方法，采用的是带迂回卷积的深度残差网络ResNet对特征图进行卷积，能够同时检测和识别多个对象，提高了识别准确率，同时通过快速点特征直方图算法FPFH和随机抽样一致性算法RANSAC估计所述对象的初始姿势，能够提高预估效果，最终实现对于多对象可靠的姿势估计，提高视觉目标识别能力。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于深度语义分割网络的视觉目标识别方法流程图；

图2是根据本申请另一个实施例的基于深度语义分割网络的视觉目标识别装置结构图；

图3是根据本申请另一个实施例的计算设备结构图；

图4是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的基于深度语义分割网络的视觉目标识别方法流程图。参见图1，该基于深度语义分割网络的视觉目标识别方法，包括：

101：从数据集中获取作为对象的特征图；

102：在深度卷积网络CNN上构建带迂回卷积的深度残差网络ResNet，通过深度残差网络卷积特征图，消除深度卷积网络CNN中池化层，用于减少所述特征图对应特征参数的数量并增加特征映射的视场，分割所述特征图并输出；

103：基于场景标记的结果从输入场景中提取对象点，通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，确定最佳的3D对象姿势。

本实施例中，在对所述特征图进行分割时，采用的是通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

另外，对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

在计算机视觉方面的工作表明，即使在杂乱的环境中，深度卷积网络CNN也能对物体检测和识别的应用提供显着的改进。因此，将深度卷积网络CNN引入视觉感知设计使得所提出的基于视觉的控制系统在实践中更加稳健。深度卷积网络CNN的基本结构由三种类型的层组成：卷积层，汇集层和完全连接层。深度残差网络ResNet结合了空洞卷积，用于在视觉感知模块中实现基于CNN的语义分割功能。该深度残差卷积构建在CNN上，带有迂回卷积，它使用带孔的卷积内核来卷积特征图，好处就是它可以消除CNN中的池化层以减少参数的数量并增加特征映射的视场(FOV)。因为基于CNN的语义分割仅提供粗略的对象分割结果，为了获得更好的像素分类结果，通过上述完全连接的CRF层来细化CNN输出，能够提高对象分割和识别的准确率。

本实施例中，优选地，在确定最佳的3D对象姿势的过程中，由于ICP算法对物体的初始姿态非常敏感，因此不良的初始姿势可能导致ICP收敛于错误的姿势，为了解决这一问题，先使用快速点特征直方图算法FPFH和随机抽样一致性算法RANSAC估计所述对象的初始姿势，所述通过使用多维直方图推广点周围的平均曲率来编码特征点的k邻域几何属性，然后再通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，进而确定最佳的3D对象姿势。

综上，本申请所提供的技术方案，优化了基于CNN的深度语义分割方法，采用的是带迂回卷积的深度残差网络ResNet对特征图进行卷积，能够同时检测和识别多个对象，提高了识别准确率，同时通过快速点特征直方图算法FPFH和随机抽样一致性算法RANSAC估计所述对象的初始姿势，能够提高预估效果，最终实现对于多对象可靠的姿势估计，提高视觉目标识别能力。

图2是根据本申请另一个实施例的基于深度语义分割网络的视觉目标识别装置结构图，参见图2，该基于深度语义分割网络的视觉目标识别装置包括：

对象获取模块201，其配置成从数据集中获取作为对象的特征图；

对象分割模块202，其配置成在深度卷积网络CNN上构建带迂回卷积的深度残差网络ResNet，通过深度残差网络卷积特征图，消除深度卷积网络CNN中池化层，用于减少所述特征图对应特征参数的数量并增加特征映射的视场，分割所述特征图并输出；

特征提取模块203，其配置成基于场景标记的结果从输入场景中提取对象点，通过ICP算法将所述对象点与存储在3D点模型数据集中的点模型进行对齐来估计对象的3D姿态，确定最佳的3D对象姿势。

优选地，在所述对象获取模块201中，其具体配置成通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

优选地，在对象分割模块202中，其还配置成对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

优选地，在所述特征提取模块203中，具体配置成：

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度语义分割网络的视觉目标识别方法，包括：

从数据集中获取作为对象的特征图；

2.根据权利要求1所述的基于深度语义分割网络的视觉目标识别方法，其特征在于，在对所述特征图进行分割时，采用的是通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

3.根据权利要求1或2所述的基于深度语义分割网络的视觉目标识别方法，其特征在于，对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

4.根据权利要求1所述的基于深度语义分割网络的视觉目标识别方法，其特征在于，在确定最佳的3D对象姿势的过程中，包括：

5.一种基于深度语义分割网络的视觉目标识别装置，包括：

6.根据权利要求5所述的基于深度语义分割网络的视觉目标识别装置，其特征在于，在所述对象获取模块中，其具体配置成通过深度残差网络ResNet进行空洞卷积，实用带孔的卷积内核来卷积所述特征图，实现基于CNN的语义分割。

7.根据权利要求5或6所述的基于深度语义分割网络的视觉目标识别装置，其特征在于，在对象分割模块中，其还配置成对于深度卷积网络CNN的输出，采用与其完全连接的条件随机场CRF层对CNN输出进行细化，提供精确的对象分割结果并输出。

8.根据权利要求5所述的基于深度语义分割网络的视觉目标识别装置，其特征在于，在所述特征提取模块中，具体配置成：

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-4中任一项所述的方法。