CN108491763A

CN108491763A - 三维场景识别网络的无监督训练方法、装置及存储介质

Info

Publication number: CN108491763A
Application number: CN201810171298.0A
Authority: CN
Inventors: 殷志超; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-09-04
Anticipated expiration: 2038-03-01
Also published as: CN108491763B

Abstract

本公开公开了一种三维场景识别网络的无监督训练方法、装置及存储介质，其中，所述的方法包括：获得视频流片段中的第一图像的深度信息；对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

Description

三维场景识别网络的无监督训练方法、装置及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种三维场景识别网络的无监督训练方法、装置及存储介质。

背景技术

通过图像或视频理解场景的几何结构是计算机视觉中的重要问题，其在自动驾驶领域中具有重要应用。传统的几何理解算法通常基于手工设计的特征算子，在极端情况，例如剧烈旋转，阴暗光照，反射性区域等通常失效。为了利用高层的信息，深度学习算法逐渐在相关领域崭露头角。

发明内容

有鉴于此，本公开提供一种三维场景识别网络的无监督训练方法、装置及存储介质，能够实现利用对三维场景识别网络的无监督训练。

第一方面，本公开实施例提供了一种三维场景识别网络的无监督训练方法，所述方法包括：

获得视频流片段中的第一图像的深度信息；

对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；

基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

上述方案中，可选地，所述基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络，包括：

基于所述深度信息和所述相机姿态信息，确定所述第一图像到所述第二图像的刚性光流；

基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络；

其中，所述基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络，包括：

基于所述第一图像到所述第二图像的刚性光流，得到所述第二图像的第一合成图像；

基于所述第二图像的第一合成图像与所述第二图像之间的第一误差，训练所述三维场景识别网络。

上述方案中，可选地，所述方法还包括：

基于所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流；

基于残差光流和所述刚性光流，得到所述第一图像到所述第二图像的预测光流；

基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络。

上述方案中，可选地，所述基于所述第一图像到所述第二图像的刚性光流，得到第一图像到所述第二图像的残差光流，包括：

基于所述第一图像、所述第二图像、所述第二图像的第一合成图像相对于所述第二图像的第一误差以及所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流。

上述方案中，可选地，所述基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络，包括：

基于所述第一图像到所述第二图像的预测光流，得到所述第二图像的第二合成图像；

基于所述第二图像的第二合成图像与所述第二图像之间的第二误差，训练所述三维场景识别网络。

上述方案中，可选地，所述方法还包括：

确定所述第二图像到所述第一图像的预测光流；

基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，训练所述三维场景识别网络。

上述方案中，可选地，所述基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，训练所述三维场景识别网络，包括：

基于所述第二图像中的多个像素点中每个像素点对应的所述第三误差的数值，将所述每个像素点划分到异常区域或正常区域；

基于所述第二图像中的多个像素点中每个像素点所属的区域，确定所述每个像素点的损失函数权重。

上述方案中，可选地，所述对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息，包括：

对所述视频流片段中的多帧图像进行卷积操作，得到所述视频流片段对应的特征图；

对所述特征图进行平均池化处理，得到所述第一图像相对于所述第二图像的相机姿态。

第二方面，本公开实施例提供了一种三维场景识别网络的无监督训练装置，所述装置包括：

第一获取模块，用于获得视频流片段中的第一图像的深度信息；

第二获取模块，用于对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；

第一训练模块，用于基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

上述方案中，可选地，所述第一训练模块，具体用于：

所述第一训练模块，还具体用于：

上述方案中，可选地，所述装置还包括：

第二训练模块，用于：

上述方案中，可选地，所述第二训练模块，具体用于：

上述方案中，可选地，所述第二训练模块，还具体用于：

上述方案中，可选地，所述装置还包括：

第三训练模块，用于：

确定所述第二图像到所述第一图像的预测光流；

上述方案中，可选地，所述第三训练模块，具体用于：

上述方案中，可选地，所述第二获取模块，具体用于：

第三方面，本公开实施例还提供了一种三维场景识别网络的无监督训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本公开实施例所述的三维场景识别网络的无监督训练方法的步骤。

第四方面，本公开实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行之后，能够实现上文所述的三维场景识别网络的无监督训练方法。

本公开实施例提供的技术方案，获得视频流片段中的第一图像的深度信息，对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息，基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络，能充分利用几何信息之间的关联关系，从而有利于提高三维场景识别网络的处理性能和鲁棒性。

附图说明

图1为本公开实施例提供的一种三维场景识别网络的无监督训练方法的实现流程示意图；

图2为本公开实施例提供的三维场景识别网络的无监督训练的一种具体框架示意图；

图3为本公开实施例提供的三维场景识别网络的无监督训练的另一种具体框架示意图；

图4为本公开实施例提供的一种三维场景识别网络的无监督训练装置的组成结构示意图。

具体实施方式

目前的深度学习算法大多依赖于高质量的标注数据，而在场景几何理解任务中，相关的标注数据获取困难，需要昂贵的相关设备进行大规模采集，难以扩展到大规模的实际应用场景。为了解决数据依赖的问题，无监督学习的方法逐渐被提出。然而其他的无监督学习算法，大多局限于独立处理场景几何中的相关特定子问题，无法利用不同任务间的几何关系，以及缺乏足够的鲁棒性以处理遮挡等特殊情况。

基于此，本公开实施例提出了一种三维场景识别网络的无监督训练方法及装置，联合解决场景几何中几大典型问题，包括深度图以及相机的相对移动，或者可以进一步包括连续帧之间的光流，其中涉及到充分利用各个任务之间的几何联系；同时，采用连续的视频序列作为训练数据，不依赖于人工标注或者特定设备采集即可学习场景中的相关几何信息；进一步地，可以在无监督学习的过程中加入了几何一致性约束，有效处理遮挡等传统困难要素，提高了鲁棒性以及遮挡区域的处理精度，以进一步提升学习效率以及最终预测的精确度。

下面结合附图和具体实施例对本公开的技术方案进一步详细阐述。

本公开实施例提供一种三维场景识别网络的无监督训练方法，如图1所示，所述方法主要包括：

步骤101、获得视频流片段中的第一图像的深度信息。

这里，所述视频流片段是与三维场景相关的目标视频的视频流片段。

其中，所述视频流片段可以是所述目标视频的一部分，也可以是所述目标视频的全部。

这里，所述目标视频可以是通过图像采集器如摄像头或相机等采集得到的。

这里，所述场景包括驾驶场景、机器人跟踪场景、机器人定位场景等等，本公开实施例对应用场景不作限定。

在本公开实施例中，可以通过多种方式获取第一图像的深度信息，例如，可以获取传感器或深度摄像头采集到的深度信息，或者，可以利用神经网络对第一图像进行处理，得到第一图像的深度信息。例如，可以采用三维场景识别网络中的第一子网络对视频流片段中的第一图像进行处理，得到所述第一图像的深度信息。

在一些可选实施例中，可以采用第一子网络对所述视频流片段进行处理，能得到所述视频流片段中每一帧图像的深度信息。其中，所述第一子网络可以为深度预测网络。可选地，可以将所述视频流片段中每帧图像作为第一网络的输入，输出该帧图像对应的稠密深度图。这样，通过第一子网络能输出单幅图像对应的稠密深度图，能实现对相关的场景视频进行单帧的深度预测。

在一些可选实施例中，所述第一子网络采用编码-解码级联结构，编码部分采用深度残差结构，解码部分采用转置卷积在不同尺度下进行由粗到细的深度预测。这里，所述的由粗到细可以理解为分辨率由小到大。

可选地，所述第一子网络最终预测得到的深度信息可以具体为深度图D_i。

可选地，所述第一子网络可以是刚性结构重建模块的一部分。刚性结构可以对应于静态场景，用于描述三维场景中静态的物体，例如：道路中的树木、建筑物、道路是静态的，可以将这类物体记为刚性静态场景；而道路中的车和行人是运动的，可以将这类物体记为非刚性场景，但本公开实施例不限于此。

在一些可选实施例中，所述获得视频流片段中的第一图像的深度信息，包括：

通过卷积操作，对所述第一图像的第一特征图中的语义信息进行特征提取，得到表征高层语义信息的第二特征图；

通过与所述卷积操作对应的转置卷积操作，将所述第二特征图的尺寸放大到第一特征图的尺寸；

基于放大处理后的所述第二特征图，得到所述第一图像的深度图。

步骤102、对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息。

在本公开实施例中，所述视频流片段中第一图像也可以称为源帧，即当前正在被分析的帧，可记为source帧；所述视频流片段中第二图像也可以称为目标帧，可记为target帧。

在一些实施例中，第二图像可以是预设的，或者，该第二图像可以是随机选择或者利用特定规则选择的图像，例如，该第二图像可以是视频流片段中居中的图像帧或离居中的图像帧之间间隔小于某一阈值的图像帧，本公开实施例对此不做限定。

在一些实施例中，可以利用神经网络对视频流片段进行处理，得到第一图像相对于第二图像的相机姿态信息。例如，可以利用三维场景识别网络中的第二子网络对视频流片段进行处理，得到第一图像相对于第二图像的相机姿态信息。

本公开实施例中，可选地，所述视频流片段既能作为第一子网络的输入，又能作为第二子网络的输入。

在一些可选实施例中，可以利用神经网络对视频流片段进行处理，得到视频流片段中每个source帧相对于同一目标帧的相机姿态信息，即同一目标帧与视频流片段中的任意其他图像帧构成的图像对所对应的相机姿态信息。例如，第二子网络可以以视频流片段作为输入，输出视频流片段中由第二图像构成的任意图像对的相机姿态信息，但本公开实施例不限于此。

在一些可选实施例中，所述对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息，包括：

可选地，该多帧图像可以是视频流片段中的部分或全部图像帧。

可选地，对所述特征图进行平均池化处理，得到所述第一图像相对于所述第二图像的相机姿态，包括：

对所述特征图进行平均池化处理，得到所述视频流片段中第一图像在网络特征图所有空间位置的预测结果；

将在网络特征图所有空间位置的预测结果的平均值，作为所述视频流片段中第一图像相对于所述视频流片段中第二图像的相机姿态。

在一些可选实施例中，可以采用第二子网络对所述视频流片段进行处理，得到所述视频流片段中任意一帧图像相对于目标帧图像的相机姿态。

所述第二子网络可以为相机姿态预测网络，所述第二子网络也可以是刚性结构重建模块的一部分。

可选地，所述第二子网络采用全卷积网络结构，最终预测得到的相机姿态是在网络特征图所有空间位置的预测的平均值。

可选地，第二子网络可以以所述视频流片段中固定长度的视频短序列作为输入，输出该视频短序列中任意一帧图像相对于目标帧图像的相机姿态。

这样，通过第二子网络能够一次性输出任意一帧图像相对于目标帧图像的相机姿态，能实现对相关的场景视频进行相机移动的跟踪。

可选地，回归的相机姿态采用目标帧I_t与当前帧I_s坐标系之间的相对变换矩阵表达，记为T_t→s。

步骤103、基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

在一些可选实施例中，所述基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络，包括：

基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络。

具体地，由步骤101中得到的深度图D_i以及步骤102中得到的相对相机移动T_t→s，我们得到两帧图像之间的刚性光流：

其中，K代表相机内参，p_t代表目标帧I_t中像素的齐次坐标。

在一些可选实施例中，所述基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络，包括：

可选地，所述第二图像的第一合成图像，是基于所述第一图像以及所述第一图像到所述第二图像的刚性光流而得到的。例如，可以基于当前帧到目标帧的刚性光流，采用双线性插值从当前帧I_s进行采样，生成目标帧I_t的第一合成图像

在一些可选实施例中，可以利用损失函数衡量第一合成图像与目标帧之间的差别，即第一误差：

其中SSIM为结构相似性指标，α为预设值。这里，所述预设值可根据识别精度需求或客户要求进行设定或调整。比如，α＝0.84，但本公开实施例对其具体取值不作限定。

此外，在一些可选实施例中，为了保证深度预测的平滑以及降低噪声的影响，我们引入针对深度的光滑损失函数：

其中，代表梯度算子，T代表矩阵转置运算。

在一些可选实施例中，所述基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络，还包括：

具体地，残差光流可以用于描述三维场景中的非刚性运动部分。可以融合三维场景中的刚性静态部分和非刚性运动部分，即对刚性光流和残差光流进行融合处理，得到用于描述该三维场景的预测光流。

在一些可选实施例中，所述基于残差光流和所述刚性光流，得到所述第一图像到所述第二图像的预测光流，包括：

将所述刚性光流以及所述残差光流进行相加运算，得到预测光流。

在一些可选实施例中，所述基于所述第一图像到所述第二图像的刚性光流，得到第一图像到所述第二图像的残差光流，包括：

基于所述第二图像的第一合成图像相对于所述第二图像的第一误差以及所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流。

可选地，可以利用神经网络对刚性光流进行处理，得到残差光流。例如，可以利用三维场景识别网络中的第三子网络对刚性光流进行处理，得到残差光流。

第三子网络也可以称为残差光流预测子网络，可以预测三维场景中的非刚性运动。

在一些可选实施例中，第三子网络可以以所述第一图像、所述第二图像、第一误差和第一图像相对于第二图像的刚性光流作为输入，输出第一图像相对于第二图像的残差光流。

残差光流在刚性结构重建的基础上专注于捕捉运动物体等非刚性运动，减轻了学习的难度，同时完备处理了场景中常见的非刚性因素。

在一些可选实施例中，所述基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络，包括：

可选地，所述第二图像的第二合成图像，是基于所述第一图像以及所述第一图像到所述第二图像的预测光流而得到的。例如，可以利用预测光流对当前帧I_s采样，生成目标帧I_t的第二合成图像

在本公开实施例中，可以利用损失函数衡量第二图像与第二合成图像之间的差别，即第二误差。其中，可选地，可以是通过将公式(2)中替换为得到的。：

其中SSIM为结构相似性指标，α为预设值。这里，所述预设值可根据识别精度需求或客户要求进行设定或调整。

在一些可选实施例中，由于预测光流在图像上除边缘外，其他地方都应是连续的，与上文引入的针对深度预测的光滑损失函数类似，还可以引入针对光流的光滑损失函数

在一些可选实施例中，为了处理遮挡与照片不一致区域等特殊情况，本公开实施例还提出了自适应前后一致性检验算法。

可选地，基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络时，所述方法还包括：

确定所述第二图像到所述第一图像的预测光流；

可以将第一图像作为目标帧并将第二图像作为当前帧，确定第二图像到第一图像的预测光流。可选地，确定所述第二图像到所述第一图像的预测光流的过程，与确定所述第一图像到所述第二图像的预测光流的过程类似，或者，也可以采用不同的方式确定第二图像到所述第一图像的预测光流，在此不再赘述。

在一些可选实施例中，将第一图像和第二图像构成的图像对分别按照正序和逆序输入残差光流网络，结合该对图像对应的正向和反向的刚性光流，能够得到最终的双向光流，所述双向光流包括正向的预测光流以及反向的预测光流，可以基于正向的预测光流与反向的预测光流之间的误差，训练所述三维场景识别网络。

例如，视频流片段中包括按照时间顺序排列的第1张图像、第2张图像、第3张图像，所述第一图像和第二图像构成的图像对可以是由第1张图像和第2张图像组成，也可以由第2张图像和第3张图像组成。其中，第1图像到第2图像的刚性光流记为正向的刚性光流，第2图像到第1图像的刚性光流记为反向的刚性光流；或者，第1图像到第2图像的预测光流记为正向的预测光流，第2图像到第1图像的预测光流记为反向的预测光流。

在一些可选实施例中，确定所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，包括：

根据所述第一图像到所述第二图像的预测光流，确定所述第一图像上的二维位置对应的特征点在第二图像上的第一位置；

根据所述第二图像到所述第一图像的预测光流，确定出所述第一位置对应的特征点在所述第一图像上的第二位置；

根据所述第一位置与所述第二位置，得到第三误差。

在一些可选实施例中，所述基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，训练所述三维场景识别网络，包括：

可选地，所述正常区域可以理解为非遮挡区域，所述异常区域可以理解为遮挡区域。或者，所述正常区域和异常区域也可以对应具体情况，本公开实施例对此不做限定。

在本公开实施例中，可以根据第三误差的数值大小，即正向预测光流和反向预测光流之间的差别，来划分第二图像中的正常区域与异常区域。并且我们可以对正常区域和异常区域采用不同的权重。例如，可以加强对正常区域的约束，即正常区域的损失函数权重可以大于异常区域的损失函数权重，但本公开实施例不限于此。

可选地，基于所述第二图像中的多个像素点中每个像素点所属的区域，确定所述每个像素点的损失函数权重，包括：

选择出所述第二图像中的多个像素点中所属区域为正常区域的像素点；

为所属区域为正常区域的每个像素点确定所述损失函数权重。

例如，可以在整体损失函数中增加针对所述非遮挡区域的损失函数权重，以使得在整体损失函数中加强对所述非遮挡区域的约束。

可选地，自适应的几何一致性约束阶段的损失函数可以表示为：

其中，|Δf_t→s(p_t)|为通过前后一致性检验得到的相对光流误差，即第三误差；而

其中，p_t→s(p_t)为对正常区域(例如非遮挡区域)的置信度估计，在一致性误差相对较大的区域概率较大。比如，(α,β)取值可以为(5.0,8.0)。

在一些实际应用中，在正常区域(例如非遮挡区域)加强几何预测的一致性约束的同时，在异常区域(例如遮挡区域)可以不进行几何预测的一致性约束。

通过上述自适应的几何一致性约束，使得本公开实施例能有效处理遮挡、反射性区域等极端情况。

如此，通过在正常区域加强几何预测的一致性约束，提升了最终预测的精确度以及鲁棒性，解决了现有的无监督学习算法缺乏足够的鲁棒性以无法处理遮挡等特殊情况的问题。

可选地，在步骤103中，可以采用第三子网络基于所述深度信息和所述相机姿态信息确定监督信息，并基于所述监督信息训练三维场景识别网络。

在图2所示的例子中，所述第三子网络采用编码-解码级联结构，在获取的刚性光流的基础上进行二维残差光流的预测，最终的预测光流为在刚性光流与二维残差光流两者相加所得的和。

对于不同子网络，即对于第一子网络、第二子网络和第三子网络而言，不同子网络的输入和输出内容是不一样的，但是，它们针对的都是同一目标视频的视频流片段。

在一些可选实施例中，通过第三子网络得到残差光流，包括：

以所述视频流片段中一对图像、根据深度图以及相机姿态得到的该对图像之间的刚性光流、以及合成图像与真实图像的误差作为输入；

以该对图像间的残差光流作为输出。

进一步地，将该对图像间的残差光流与该对图像之间的刚性光流进行组合，即可生成最终预测得到的双向光流。

举例来说，假设所述一对图像记为第一图像和第二图像，那么，所述双向光流既包括所述第一图像到所述第二图像的预测光流，又包括所述第二图像到所述第一图像的预测光流。

其中在一些实施例中，所述合成图像与所述真实图像是针对该对图像中的同一个目标图像而言。举例来说，假设所述一对图像记为第一图像和第二图像，那么，所述第一图像基于该对图像之间的刚性光流合成理论上的第二图像，所述理论上的第二图像与真实的第二图像之间的误差为合成图像与真实图像的误差。或者，所述第二图像基于该对图像之间的刚性光流合成理论上的第一图像，所述理论上的第一图像与真实的第一图像之间的误差为合成图像与真实图像的误差。

这里，所述的一对图像是所述目标视频中的两张图像，其中，所述两张图像为相邻的两张图像，或是有一定间隔的两张图像。

如此，充分利用了相互之间的几何依赖关系，通过一个联合的框架能同时解决多个场景几何信息理解难题。

这样，通过第三子网络能输出图像对间的残差光流，将该图像对间的残差光流与该图像对之间的刚性光流进行组合，生成最终预测得到的双向光流，进而能对相关的场景视频得到连续两帧间的稠密逐像素对应，以将上一帧信息有效传播到下一帧。

最后，我们得到最终的整体损失函数为：

其中，λ表示损失函数权重，l表示不同的图像尺度，<t，s>表示不同的图像对。

我们通过损失函数的方式来表示挖掘到的监督信息，基于使得所述整体损失函数最小化来训练预设神经网络，得到三维场景识别网络。

本公开实施例中，对预设卷积神经网络进行训练得到的三维场景识别网络，包括所述第一子网络、所述第二子网络和所述第三子网络。

其中，所述第一子网络、所述第二子网络和所述第三子网络是采用同一训练集对所述预设卷积神经网络进行训练得到的，且所述训练集以视频图像序列为训练数据，所述视频图像序列无需人工标注。

如此，仅需要视频序列作为训练数据，而不需要冗余的人工标注以及昂贵的设备采集工作，能解决现有技术中依赖于大量人工标注或设备采集的数据进行训练的问题。

图2示出了三维场景识别网络的无监督训练方法的一种具体框架，其包括刚性结构重建和非刚性运动捕捉两部分。进一步地，图3示出了三维场景识别网络的无监督训练方法的另一种具体框架，其包括刚性结构重建、非刚性运动捕捉和自适应几何一致性约束三部分。本方案利用了深度卷积网络的强大表达能力，设计了三个子网络分别处理深度，相机姿态以及光流的预测；通过相关的几何信息生成图像对中的某一图像，其与真实图像间的相似度作为监督信息引导无监督的学习；充分利用了刚性场景与运动物体的区别与联系，采用级联残差学习的结构，帮助更好的捕获场景的几何细节信息。本申请相对于现有技术中大多依赖于大量人工标注或设备采集的数据进行训练的情景，能无监督学习场景几何信息；相对于其他方式中大多独立于某特定子问题单独求解的问题，能联合学习场景各大几何要素，充分利用相关的几何关系；相对于现有技术中因平等对待遮挡与非遮挡区域而导致遮挡区域预测恶化的技术缺陷，采用自适应几何一致性约束技术，能有效处理遮挡等传统困难要素，以及进一步提升学习效率以及最终预测的精确度。

作为一种可选的实施方式，本公开实施例中，对预设卷积神经网络进行训练的方法包括：

采用训练集对预设卷积神经网络同时进行深度预测训练、相机姿态预测训练与光流预测训练，以得到所述第一子网络、所述第二子网络和所述第三子网络。

也就是说，在对预设卷积神经网络进行训练时，可同时对其进行深度预测训练、相机姿态预测训练与光流预测训练。

在一些可选实施例中，对预设卷积神经网络进行训练的方法包括：

先采用训练集对预设卷积神经网络进行深度预测训练；在完成对所述预设卷积神经网络的深度预测训练后，再采用所述训练集对经过深度预测训练的预设卷积神经网络进行相机姿态预测训练；在完成对所述预设卷积神经网络的相机姿态预测训练后，再采用所述训练集对经过深度预测训练与相机姿态预测训练的预设卷积神经网络进行光流预测训练，以得到所述第一子网络、所述第二子网络和所述第三子网络。

也就是说，在对预设卷积神经网络进行训练时，可分阶段对其进行深度预测训练、相机姿态预测训练与光流预测训练。

其中，上述训练集仅需要以视频序列作为训练数据，而不需要冗余的人工标注以及昂贵的设备采集工作。

本公开实施例提出的三维场景识别网络的无监督训练方法，充分利用相互之间的几何依赖关系，通过一个联合的框架同时解决多个场景几何信息理解难题；采用连续的视频序列作为训练数据，不依赖于人工标注或者特定设备采集即可学习场景中的相关几何信息；在无监督学习的过程中加入了几何一致性约束，有效处理遮挡等传统困难要素，以及进一步提升学习效率以及最终预测的精确度。

需要说明的是，本技术方案在相关的公开学术数据集上进行验证，相关几何理解子任务均达到了无监督学习方法中的顶尖水平，部分任务甚至超过了有监督的算法。

本公开实施例还提供了一种三维场景识别网络的无监督训练装置，如图4所示，所述装置包括：

第一获取模块10，用于获得视频流片段中的第一图像的深度信息；

第二获取模块20，用于对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；

第一训练模块30，用于基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

作为一种实施方式，所述第一训练模块30，具体用于：

作为一种实施方式，所述第一训练模块30，还具体用于：

上述方案中，进一步地，所述装置还包括：

第二训练模块40，用于：基于所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流；基于残差光流和所述刚性光流，得到所述第一图像到所述第二图像的预测光流；基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络。

作为一种实施方式，所述第二训练模块40，具体用于：

作为一种实施方式，所述第二训练模块40，还具体用于：

上述方案中，进一步地，所述装置还包括：

第三训练模块50，用于：确定所述第二图像到所述第一图像的预测光流；基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，训练所述三维场景识别网络。

作为一种实施方式，所述第三训练模块50，具体用于：

基于所述第二图像中的多个像素点中每个像素点对应的所述第三误差的数值，将所述每个像素点划分到异常区域或正常区域；基于所述第二图像中的多个像素点中每个像素点所属的区域，确定所述每个像素点的损失函数权重。

作为一种实施方式，所述第二获取模块20，具体用于：对所述视频流片段中的多帧图像进行卷积操作，得到所述视频流片段对应的特征图；对所述特征图进行平均池化处理，得到所述第一图像相对于所述第二图像的相机姿态。

本领域技术人员应当理解，在一些可选实施例中，图4中所示的三维场景识别网络的无监督训练装置中的各处理模块的实现功能可参照前述三维场景识别网络的无监督训练方法的相关描述而理解。

本领域技术人员应当理解，在一些可选实施例中，图4所示的三维场景识别网络的无监督训练装置中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

实际应用中，上述的第一获取模块10、第二获取模块20、第一训练模块30、第二训练模块40、第三训练模块50的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU，Central Processing Unit)、微处理器(MCU，Micro Controller Unit)、数字信号处理器(DSP，Digital Signal Processing)或可编程逻辑器件(PLC，Programmable Logic Controller)等具有处理功能的电子元器件或电子元器件的集合。其中，所述处理器包括可执行代码，所述可执行代码存储在存储介质中，所述处理器可以通过总线等通信接口与所述存储介质中相连，在执行具体的各单元的对应功能时，从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。

所述第一获取模块10、第二获取模块20、第一训练模块30、第二训练模块40、第三训练模块50可以集成对应于同一处理器，或分别对应不同的处理器；当集成对应于同一处理器时，所述处理器采用时分处理所述第一获取模块10、第二获取模块20、第一训练模块30、第二训练模块40、第三训练模块50对应的功能。

本公开实施例提供的三维场景识别网络的无监督训练装置，能充分利用相互之间的几何依赖关系，通过一个联合的框架同时解决多个场景几何信息理解难题；采用连续的视频序列作为训练数据，不依赖于人工标注或者特定设备采集即可学习场景中的相关几何信息；在无监督学习的过程中加入了几何一致性约束，能有效处理遮挡等传统困难要素，以及进一步提升学习效率以及最终预测的精确度。

本公开实施例还记载了一种三维场景识别网络的无监督训练装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述任意一个技术方案提供的三维场景识别网络的无监督训练方法。

本公开实施例中，所述处理器执行所述程序时实现：获得视频流片段中的第一图像的深度信息；对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述深度信息和所述相机姿态信息，确定所述第一图像到所述第二图像的刚性光流；基于所述第一图像到所述第二图像的刚性光流，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一图像到所述第二图像的刚性光流，得到所述第二图像的第一合成图像；基于所述第二图像的第一合成图像与所述第二图像之间的第一误差，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流；基于残差光流和所述刚性光流，得到所述第一图像到所述第二图像的预测光流；基于所述第一图像到所述第二图像的预测光流，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一图像、所述第二图像、所述第二图像的第一合成图像相对于所述第二图像的第一误差以及所述第一图像到所述第二图像的刚性光流，得到所述第一图像到所述第二图像的残差光流。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一图像到所述第二图像的预测光流，得到所述第二图像的第二合成图像；基于所述第二图像的第二合成图像与所述第二图像之间的第二误差，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：确定所述第二图像到所述第一图像的预测光流；基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差，训练所述三维场景识别网络。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第二图像中的多个像素点中每个像素点对应的所述第三误差的数值，将所述每个像素点划分到异常区域或正常区域；基于所述第二图像中的多个像素点中每个像素点所属的区域，确定所述每个像素点的损失函数权重。

作为一种实施方式，所述处理器执行所述程序时实现：对所述视频流片段中的多帧图像进行卷积操作，得到所述视频流片段对应的特征图；对所述特征图进行平均池化处理，得到所述第一图像相对于所述第二图像的相机姿态。

本公开实施例还记载了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述各个实施例所述的三维场景识别网络的无监督训练方法。也就是说，所述计算机可执行指令被处理器执行之后，能够实现前述任意一个技术方案提供的三维场景识别网络的无监督训练方法。

本领域技术人员应当理解，本实施例的计算机存储介质中各程序的功能，可参照前述各实施例所述的三维场景识别网络的无监督训练方法的相关描述而理解。

基于上述各实施例所述的三维场景识别网络的无监督训练方法和装置，下面给出具体应用在无人驾驶领域的应用场景。实际应用中，智能汽车通过上述三维场景识别网络的无监督训练方法及装置获得更加清晰明了的周围环境信息，并根据周围环境信息执行无人驾驶，能处理遮挡、反射性区域等极端情况，有效躲避障碍物。

基于上述各实施例所述的三维场景识别网络的无监督训练方法和装置，下面给出具体应用在机器人上的应用场景。实际应用中，机器人通过上述三维场景识别网络的无监督训练方法及装置，能获得场景中物体距离机器人的远近，机器人在场景中运动的轨迹以及场景中运动物体的位移等信息，从而基于这些信息中的一种或几种能得到有关当前场景结构的描述，感知周围环境信息和定位机器人自身的位置。

本公开实施例还提供了一种图像处理方法和对应装置，该方法可以包括：获得视频流片段中的第一图像的深度信息；对所述视频流片段进行处理，得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息；基于所述深度信息和所述相机姿态信息，确定所述视频流片段的处理结果。

在一些可选实施例中，可以基于所述深度信息和所述相机姿态信息，确定第一图像到第二图像的刚性光流。

在一些可选实施例中，可以基于刚性光流，确定预测光流。在一些例子中，可以基于刚性光流确定残差光流，并基于刚性光流和残差光流，确定预测光流。

本公开实施例提供的图像处理方法可以利用上述三维识别场景网络实现，具体实现可以参考上文描述，为了简洁，这里不再赘述。

还应理解，本文中列举的各个可选实施例仅仅是示例性的，用于帮助本领域技术人员更好地理解本公开实施例的技术方案，而不应理解成对本公开实施例的限定，本领域普通技术人员可以在本文所记载的各个可选实施例的基础上进行各种改变和替换，也应理解为本公开实施例的一部分。

此外，本文对技术方案的描述着重于强调各个实施例的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种三维场景识别网络的无监督训练方法，其特征在于，所述方法包括：

获得视频流片段中的第一图像的深度信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述深度信息和所述相机姿态信息，训练所述三维场景识别网络，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述第二图像到所述第一图像的预测光流；

5.一种三维场景识别网络的无监督训练装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述第一训练模块，具体用于：

所述第一训练模块，还具体用于：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二训练模块，用于：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三训练模块，用于：

确定所述第二图像到所述第一图像的预测光流；

9.一种三维场景识别网络的无监督训练装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述的三维场景识别网络的无监督训练方法。

10.一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，能够使得所述处理器执行权利要求1至4任一项所述的三维场景识别网络的无监督训练方法。