CN111209915A

CN111209915A - 一种基于深度学习的三维图像同步识别和分割方法

Info

Publication number: CN111209915A
Application number: CN201911351800.7A
Authority: CN
Inventors: 武海雷; 韩飞; 孙俊; 梁彦; 牟金震; 阳光
Original assignee: Shanghai Aerospace Control Technology Institute
Current assignee: Shanghai Aerospace Control Technology Institute
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-29
Anticipated expiration: 2039-12-25
Also published as: CN111209915B

Abstract

一种基于深度学习的三维图像同步识别和分割方法，采用Faster RCNN网络实现对空间非结构复杂环境的三维图像的目标分类和目标检测，采用U‑Net网络实现对空间非结构复杂环境的场景的语义分割和实例分割，最终获得空间目标或部组件实体，基于目标分类、目标检测、语义分割和实例分割结果实现目标的智能识别和场景理解。本发明基于深度学习实现空间非结构复杂环境目标识别、目标检测、语义分割和实例分割等智能感知，完成空间非结构复杂环境场景解析与表征，解决了目标识别和场景理解存在的识别鲁棒性差、泛化性差以及难以获得更深层次语义信息的问题，为在轨抓捕和精细操作奠定基础。

Description

一种基于深度学习的三维图像同步识别和分割方法

技术领域

本发明涉及一种基于深度学习的三维图像同步识别和分割方法。

背景技术

实现失效目标的在轨操作任务的前提是解决目标识别和场景理解问题，传统方法大多采用Faster R-CNN算法进行目标分类和目标检测，借助SegNet、ENet等实施语义分割，采用Mask R-CNN方法进行实例分割，会存在以下弊端：1)仅能对2D图像操作，并在2D空间输出结果，而空间可以提供完备的场景深度信息，由于没有很好地利用空间3D信息，无法获得更好的性能；2)已有方法都是孤立地去处理目标识别、目标检测、实例分割和语义分割等任务，没有很好地利用任务之间的关联，充分挖掘内在的关联信息，无法获得大幅度的性能提升。

发明内容

本发明提供一种基于深度学习的三维图像同步识别和分割方法，基于深度学习实现空间非结构复杂环境目标识别、目标检测、语义分割和实例分割等智能感知，完成空间非结构复杂环境场景解析与表征，解决了目标识别和场景理解存在的识别鲁棒性差、泛化性差以及难以获得更深层次语义信息的问题，为在轨抓捕和精细操作奠定基础。

为了达到上述目的，本发明提供一种基于深度学习的三维图像同步识别和分割方法，包含以下步骤：

采用Faster RCNN网络实现对空间非结构复杂环境的三维图像的目标分类和目标检测，采用U-Net网络实现对空间非结构复杂环境的场景的语义分割和实例分割，最终获得空间目标或部组件实体；

基于目标分类、目标检测、语义分割和实例分割结果，提取各目标与部组件实体，利用视觉系统中深度相机输出的三维点云信息，抽取不同目标或部组件实体之间的几何关系，并将其映射至各目标或部组件实体对应的节点之间的空间关系、时序关系以及语义关系，生成描述空间非结构复杂环境的知识图谱，完成目标尺寸、位置、角度、速度和角速度的语义描述，实现目标的智能识别和场景理解。

所述的采用Faster RCNN网络实现目标分类和目标检测的方法包含：

通过多层的卷积层和池化层来提取三维图像的特征图；

区域提议网络根据倒数第二层的卷积层和池化层的输出结果生成候选区域；

候选区域匹配综合倒数第二层的卷积层和池化层的输出结果，以及区域提议网络输出的候选区域，提取候选区域的特征图送入最后一层的卷积层和池化层；

全连接层根据最后一层的卷积层和池化层输出的候选区域的特征图判定目标类别，实现目标分类，全连接层使用检测框回归方法获得检测框的精确位置，实现目标检测。

所述的区域提议网络通过softmax函数判断图像区域属于正类或者负类，再利用检测框回归方法进行修正以获得精确的候选区域，损失函数是分类误差和回归误差的联合损失：

式中，i表示第i个锚点，

表示第i个锚点为正样本，

表示候选区域边框t＝(t_x,t_y,t_z,t_w,t_h,t_d)和真实边框v＝(v_x,v_y,v_z,v_w,v_h,v_d)之间的偏差，且

其中，(G_x,G_y,G_z,G_w,G_h,G_d)表示真实目标的中心坐标和边框宽、高和深度，(P_x,P_y,P_z,P_w,P_h,P_d)表示候选区域的中心坐标和区域的宽、高和深度；

对于边框回归层定义的损失为：

其中，

所述的采用U-Net网络实现语义分割和实例分割的方法包含：在语义分割分支中，所述的U-Net网络对Faster RCNN网络中卷积运算的各个维度的卷积池化计算结果进行复制和裁剪，把各个维度归一化后的结果进行卷积和池化，并对后一层的卷积池化结果不断进行上采样，将上采样层的输出结果与每一步卷积过程中得到的特征图进行融合，以还原特征在原图上的位置信息，实现语义分割；在实例分割分支中，所述的U-Net网络在目标检测的基础上，对Faster RCNN网络的最后一层的卷积层和池化层的输出进行卷积来实现检测对象的分割。

所述的基于目标分类、目标检测、语义分割和实例分割结果，实现目标的智能识别和场景理解的方法包含：

基于目标分类、目标检测、语义分割和实例分割结果，将场景中的每个空间目标或部组件实体对应为知识图谱中的一个节点，建立知识图谱；

对知识谱图中各节点之间的关系进行知识抽取，将节点名称映射为其对应的语义分割标签，利用视觉系统中深度相机输出的三维点云信息，抽取不同节点间的几何关系，将其映射至知识图谱中各节点的关系与属性，实现对知识图谱中各节点之间的关系的抽取和建立；

利用空间目标先验知识库中已有的安装关系、主备份关系、关键属性等先验知识，对已建立的知识图谱进行知识合并、实体消岐修正，最终形成修正后的知识图谱，形成场景内关键目标的语义关系描述。

本发明为了提高目标识别和分割的性能，借鉴多任务学习思想，提出基于三维图像的同步识别与分割方法，设计同步识别与分割的基础网络架构来挖掘不同任务间的联系，分别采用基于三维数据的Faster RCNN网络实现目标识别和检测，以及采用U-Net网络实现场景语义分割和实例分割，所设计的同步识别与分割的基础网络架构只经过一次训练过程，就能够同时处理目标检测识别和实例分割等多种任务，大大提升各任务精度，并有效降低了训练时间。通过空间非结构复杂环境场景解析与表征技术，完成目标尺寸、位置、角度、速度和角速度的语义获取，实现目标的智能识别和场景理解，为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。

附图说明

图1是本发明提供的一种基于深度学习的三维图像同步识别和分割方法的流程图。

图2是同步识别与分割的基础网络架构的示意图。

图3是知识图谱场景解析关系构建过程图。

具体实施方式

以下根据图1～图3，具体说明本发明的较佳实施例。

针对失效目标抓捕和操作任务需求，为了解决失效目标加注口、对接环、帆板等特定部位的识别和分割问题，如图1所示，本发明提供一种基于深度学习的三维图像同步识别和分割方法，包含以下步骤：

步骤S1、建立同步识别与分割的基础网络架构，采用Faster RCNN网络实现对空间非结构复杂环境的三维图像的目标分类和目标检测，采用U-Net网络实现对空间非结构复杂环境的场景的语义分割和实例分割；

所述的识别包含目标分类和目标检测：目标分类是确定图像中目标的类别；目标检测是确定图像中目标的长、宽和高等具体位置；

所述的分割包含语义分割和实例分割：语义分割是对图像进行逐像素分类；实例分割是对图像中的目标进行检测，并对检测到的目标进行分割。

步骤S2、基于目标分类、目标检测、语义分割和实例分割结果，提取各目标与部组件实体，利用视觉系统中深度相机输出的三维点云信息，抽取不同目标/部组件实体之间的几何关系(包括但不限于方向关系、拓扑关系、距离关系等)，并将其映射至各实体对应的节点之间的空间关系、时序关系以及语义关系，生成描述空间非结构复杂环境的知识图谱，完成目标尺寸、位置、角度、速度和角速度的语义描述，实现目标的智能识别和场景理解。

在本发明的一个实施例中，如图2所示，所述的同步识别与分割的基础网络架构中，包含Faster RCNN网络和U-Net网络。

所述的基于三维数据的快速目标检测Faster RCNN算法，不仅可以识别出物体属于哪个分类，还可以得到物体在图片中的具体位置，克服视角变化、光照变化、形变、遮挡、背景干扰等问题，它将特征抽取、候选区域提取、检测框回归、目标分类等功能模块整合在一个网络中，较大提高了综合性能，在检测速度方面的提升尤为明显。

如图2所示，在本发明的一个实施例中，所述的Faster RCNN网络包含：卷积层和池化层、区域提议网络、候选区域匹配、全连接层，可实现目标分类和目标检测。使用一组基础网络来提取三维图像的特征图，所述的基础网络包含卷积层和池化层，所述的基础网络可用于区域提议网络(Region Proposal Networks，RPN)、候选区域匹配、全连接网络、U-Net网络；

所述的区域提议网络(RPN)用于生成候选区域，通过softmax函数判断图像区域属于正类或者负类，再利用检测框回归方法进行修正以获得精确的候选区域，该训练过程是端到端的，损失函数是分类误差和回归误差的联合损失：

式中，i表示第i个锚点，

表示第i个锚点为正样本，

其中，(G_x,G_y,G_z,G_w,G_h,G_d)表示真实目标的中心坐标和边框宽、高和深度，(P_x,P_y,P_z,P_w,P_h,P_d)表示候选区域的中心坐标和区域的宽、高和深度。

对于边框回归层定义的损失为：

其中，

在训练时，正样本为与任意真实边框的交并比大于0.7的候选区，负样本为与所有的真实边框的交并比小于0.3的候选区，而不属于以上两种情况的目标候选区不在训练中使用。

所述的目标分类与目标检测分支中，基于候选区域匹配方法收集输入的特征图和候选区域，综合这些信息后提取候选区域的特征图，送入后续的全连接层判定目标类别，同时使用检测框回归方法获得检测框的精确位置，实现目标检测。

如图2所示，在语义分割分支中，选择具有高分割精度、高实时性的U-Net网络结构，所述的U-Net网络对Faster RCNN网络中卷积运算的各个维度的卷积池化计算结果进行复制和裁剪，把各个维度归一化后的结果进行卷积和池化，并对后一层的卷积池化结果不断进行上采样，将上采样层的输出结果与每一步卷积过程中得到的特征图进行融合，以还原特征在原图上的位置信息，实现语义分割。在实例分割分支中，在目标检测的基础上，对卷积层5和池化层5进行卷积来实现检测对象的分割。

在同步识别和分割网络训练时，通过输入大量图像样本的真值，并借助反向传播的训练机制，可以让学习到的网络参数同步实现目标分类、目标检测、语义分割和实例分割等功能。

在本发明的一个实施例中，所述的步骤S2具体包含以下步骤：

步骤S2.1、基于同步识别与分割的基础网络架构获得的目标识别和目标检测结果与语义分割和实例分割结果，将场景中的每个构成要素(即每个被检测并分割出的空间目标或部组件，包括但不限于卫星本体、太阳能帆板、星敏感器、天线等)对应为知识图谱中的一个节点，建立知识图谱；

其中，每个节点的属性信息由各测量单机的输出数据融合处理得出，如宽、高、深度、形状、体积、质心、姿态、角度信息等；

步骤S2.2、对知识谱图中各节点之间的关系进行知识抽取，将节点名称映射为其对应的语义分割标签，利用视觉系统中深度相机输出的三维点云信息，抽取不同节点间的几何关系(包括但不限于方向关系、拓扑关系、距离关系等)，将其映射至知识图谱中各节点的关系与属性，实现对知识图谱中各节点之间的关系的抽取和建立；

步骤S2.3、利用空间目标先验知识库中已有的安装关系、主备份关系、关键属性等先验知识，对已建立的知识图谱进行知识合并、实体消岐修正，最终形成修正后的知识图谱，形成场景内关键目标的语义关系描述。

本发明为了提高目标识别和分割的性能，借鉴多任务学习思想，提出基于三维图像的同步识别与分割方法，设计同步识别与分割的基础网络架构来挖掘不同任务间的联系，分别采用基于三维数据的Faster RCNN网络实现目标识别和检测，以及采用U-Net网络实现场景语义分割和实例分割，所设计的同步识别与分割的基础网络架构只经过一次训练过程，就能够同时处理目标检测识别和实例分割等多种任务，大大提升各任务精度，并有效降低了训练时间。通过空间非结构复杂环境场景解析与表征技术，完成目标尺寸、位置、角度、速度和角速度的语义获取，实现目标的智能识别和场景理解，为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。本发明基于深度学习实现空间非结构复杂环境目标识别、目标检测、语义分割和实例分割等智能感知，完成空间非结构复杂环境场景解析与表征，解决了目标识别和场景理解存在的识别鲁棒性差、泛化性差以及难以获得更深层次语义信息的问题，为在轨抓捕和精细操作奠定基础。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于深度学习的三维图像同步识别和分割方法，其特征在于，包含以下步骤：

2.如权利要求1所述的基于深度学习的三维图像同步识别和分割方法，其特征在于，所述的采用Faster RCNN网络实现目标分类和目标检测的方法包含：

通过多层的卷积层和池化层来提取三维图像的特征图；

3.如权利要求2所述的基于深度学习的三维图像同步识别和分割方法，其特征在于，所述的区域提议网络通过softmax函数判断图像区域属于正类或者负类，再利用检测框回归方法进行修正以获得精确的候选区域，损失函数是分类误差和回归误差的联合损失：

式中，i表示第i个锚点，

表示第i个锚点为正样本，

其中_，(G_x,G_y,G_z,G_w,G_h,G_d)表示真实目标的中心坐标和边框宽、高和深度，(P_x,P_y,P_z,P_w,P_h,P_d)表示候选区域的中心坐标和区域的宽、高和深度；

对于边框回归层定义的损失为：

其中，

4.如权利要求3所述的基于深度学习的三维图像同步识别和分割方法，其特征在于，所述的采用U-Net网络实现语义分割和实例分割的方法包含：在语义分割分支中，所述的U-Net网络对Faster RCNN网络中卷积运算的各个维度的卷积池化计算结果进行复制和裁剪，把各个维度归一化后的结果进行卷积和池化，并对后一层的卷积池化结果不断进行上采样，将上采样层的输出结果与每一步卷积过程中得到的特征图进行融合，以还原特征在原图上的位置信息，实现语义分割；在实例分割分支中，所述的U-Net网络在目标检测的基础上，对Faster RCNN网络的最后一层的卷积层和池化层的输出进行卷积来实现检测对象的分割。

5.如权利要求4所述的基于深度学习的三维图像同步识别和分割方法，其特征在于，所述的基于目标分类、目标检测、语义分割和实例分割结果，实现目标的智能识别和场景理解的方法包含：