CN112348843A

CN112348843A - 调整深度图像预测模型的方法、装置和电子设备

Info

Publication number: CN112348843A
Application number: CN202011187044.1A
Authority: CN
Inventors: 高睿鹏; 束纬寰; 马楠; 肖轩
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-09

Abstract

本发明实施例公开了一种调整深度图像预测模型的方法、装置、可读存储介质和电子设备。本发明实施例通过获取顺序拍摄的图像序列；获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化。通过上述方法，采用无监督方式迭代调整深度图像预测模型和运动预测模型的参数，以使得损失函数最优化，获取到优化的深度图像预测模型和运动预测模型，通过优化的深度图像预测模型对深度图像进行确定，可以提高所估计深度图像的精确度。

Description

调整深度图像预测模型的方法、装置和电子设备

技术领域

本发明涉及图像处理领域，具体涉及一种调整深度图像预测模型的方法、装置和电子设备。

背景技术

近年来，自动驾驶技术的研究越来越深入和广泛，自动驾驶汽车是自动驾驶技术的一项重要应用，自动驾驶汽车是智能汽车的一种，以自动驾驶模式运行的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来；当以自动驾驶模式运行时，车辆主要依靠车内的以计算机系统为主的智能驾驶仪来实现自动驾驶的目的，从而允许车辆在没有人机交互的情况下行驶。自动驾驶技术中的一项具体的技术为通过单目图像获取深度图像，进而预测场景深度，其中，所述深度图像，又名距离图像(Range Image)是指将从图像采集器到场景中各点的距离作为像素值的图像，也就是深度图像中的每一个像素值表示场景中某一点与摄像机之间的距离。

现有技术中，由于单目图像受光照的影响、拍摄单目图像的摄像机的快速运动的影响，以及单目图像中会存在尺度模糊等问题，通过单目图像获取的深度图像的精确度较差，如何提高由单目图像生成的深度图像的精确度是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种调整深度图像预测模型的方法、装置、可读存储介质和电子设备，通过无监督方式迭代调整深度图像预测模型和运动预测模型的参数，以使得损失函数最优化，进而提高了通过所述深度图像预测模型生成的深度图像的精确度。

第一方面，本发明实施例提供了一种调整深度图像预测模型的方法，该方法包括：获取顺序拍摄的图像序列；获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤包括：基于运动预测模型，根据所述样本数据组确定运动矩阵；基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。

优选地，该方法还包括：将至少一张第三图像输入到迭代调整后的所述深度图像预测模型，输出所述第三图像对应的第三初始深度图像。

优选地，将相邻的第三图像和第四图像及在拍摄所述第三图像和第四图像之间的时间段内记录的运动数据输入到迭代调整后的所述运动预测模型，输出所述运动矩阵，其中所述运动矩阵用于确定拍摄所述第三图像和所述第四图像的设备的运动轨迹。

优选地，所述运动数据包括惯性测量单元IMU数据；所述运动预测模型包括第一运动编码器PoseNet、第二运动编码器BiLSTM、以及门控加权网络；所述深度图像预测模型包括图像编码器DepthNet。

优选地，所述根据所述样本数据组确定运动矩阵，具体包括：

根据所述相邻的所述第一图像和所述第二图像确定第一运动特征；

根据所述IMU数据确定第二运动特征；

将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵。

优选地，所述根据所述相邻的所述第一图像和所述第二图像确定第一运动特征，具体包括：

将所述相邻的所述第一图像和所述第二图像进行堆叠；

根据所述第一运动编码器PoseNet提取所述堆叠的所述相邻的所述第一图像和所述第二图像的第一运动特征。

优选地，所述根据所述IMU数据确定第二运动特征，具体包括：

通过所述第二运动编码器BiLSTM确定所述IMU数据对应的第二运动特征。

优选地，所述将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵，具体包括：

根据门控加权网络确定所述第一运动特征对应的第一权重系数，并根据所述门控加权网络确定所述第二运动特征对应的第二权重系数；

根据所述第一运动特征、所述第一权重系数、所述第二运动特征、以及所述第二权重系数确定所述运动矩阵。

优选地，根据门控加权网络确定所述第一运动特征对应的第一权重系数，具体包括：

所述第一运动特征经过所述全连接网络确定第一中间参数；

根据所述第一中间参数与所述Sigmoid函数确定所述第一运动特征对应的第一权重系数。

优选地，根据门控加权网络确定所述第二运动特征对应的第二权重系数，具体包括：

所述第二运动特征经过所述全连接网络确定第二中间参数；

根据所述第二中间参数与所述Sigmoid函数确定所述第二运动特征对应的第二权重系数。

优选地，所述IMU数据包括三维加速度数据以及三维陀螺仪数据。

优选地，该方法还包括：

根据所述第一图像中任一像素点的二维坐标，确定所述任一像素点在所述第一图像对应的所述第一初始深度图像中的三维坐标；

根据所述三维坐标以及所述运动矩阵，确定所述第一图像重投影到相邻的所述第二图像的第一参数，以及所述第一图像对应的第一深度图像重投影到相邻的所述第二图像对应的所述第二深度图像的第二参数。

优选地，所述根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数，具体包括：

根据所述第一参数以及第二参数确定所述损失函数。

优选地，所述损失函数包括图像重构损失函数、深度一致损失函数以及深度平滑损失函数。

第二方面，本发明实施例提供了一种调整深度图像预测模型的装置，该装置包括：

获取单元，用于获取顺序拍摄的图像序列；所述获取单元还用于，获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；调整单元，用于以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤通过确定单元进行处理，所述确定单元具体用于：基于运动预测模型，根据所述样本数据组确定运动矩阵；基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。

优选地，该装置还包括：第一处理单元，用于将至少一张第三图像输入到迭代调整后的所述深度图像预测模型，输出所述第三图像对应的第三初始深度图像。

优选地，该装置还包括：第二处理单元，用于将相邻的第三图像和第四图像及在拍摄所述第三图像和第四图像之间的时间段内记录的运动数据输入到迭代调整后的所述运动预测模型，输出所述运动矩阵，其中所述运动矩阵用于确定拍摄所述第三图像和所述第四图像的设备的运动轨迹。

优选地，所述确定单元具体用于：

根据所述IMU数据确定第二运动特征；

优选地，所确定单元具体还用于：

将所述相邻的所述第一图像和所述第二图像进行堆叠；

优选地，所确定单元具体还用于：

优选地，所述确定单元具体还用于：

优选地，所述确定单元具体用于：

所述第一运动特征经过所述全连接网络确定第一中间参数；

优选地，所述确定单元具体用于：

所述第二运动特征经过所述全连接网络确定第二中间参数；

优选地，所述确定单元还用于：

优选地，所述确定单元具体用于：

根据所述第一参数以及第二参数确定所述损失函数。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取顺序拍摄的图像序列；获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤包括：基于运动预测模型，根据所述样本数据组确定运动矩阵；基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。通过上述方法，采用无监督方式迭代调整深度图像预测模型和运动预测模型的参数，以使得损失函数最优化，获取到优化的深度图像预测模型和运动预测模型，通过优化的深度图像预测模型对深度图像进行确定，可以提高深度图像的精确度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的一种调整深度图像预测模型的方法流程图；

图2是本发明实施例的一种确定损失函数的方法流程图；

图3是本发明实施例的第一权重系数生成方法流程图；

图4是本发明实施例的第二权重系数生成方法流程图；

图5是本发明实施例的参数生成方法流程图；

图6是本发明实施例的一种调整深度图像预测模型的方法流程图；

图7是本发明实施例的一种调整深度图像预测模型的装置示意图；

图8是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

自动驾驶技术中的一项重要的技术为通过单目图像获取深度图像，进而预测场景深度，所述深度图像是指将从图像采集器(例如、摄像机或照相机等)到场景中各点的距离作为像素值的图像，也就是深度图像中的每一个像素值表示场景中某一点与摄像机之间的距离。因此通过单目图像获取的深度图像在自动驾驶过程中起到了重要的作用，进而深度图像的精确度也非常重要；在现有技术中，通过单目图像获取深度图像的过程中，通常采用基于单目图像的深度估计算法，具体的，可以分为两种方式，方式一、基于深度线索的深度估计算法，方式二、基于机器学习的深度估计算法；方式一中，常用的深度线索包括：运动信息、线性透视、聚焦、遮挡、纹理、和阴影等。根据运动信息求解深度是最常用的一个方法：运动恢复结构(Structure from Motion，SfM)技术可以从摄像机拍摄的图像序列中恢复出摄像机的内外参数和场景的深度信息；基于SfM技术的深度估计算法通常能够恢复出场景深度信息,但受制于特殊的场景,要求必须存在摄像机的运动；当场景中存在运动物体时,对深度求解的精度也影响很大；由于需要求解摄像机内外参数,因此深度估计的速度也相对较慢；并且当单目图像受光照的影响可能会无法计算出摄像机自身的运动、拍摄单目图像的摄像机的快速运动会导致第一帧图像和第二帧图像差别过大，对深度求解的精度也影响很大；方式二中，通过机器学习的方法，将大量训练图像和对应的深度图像输入到定义好的模型中进行有监督的学习，模型训练完成后，便可将实际待测试的图像输入到训练好的模型中进行深度的计算。但是由于在训练的过程中没有较佳的深度图像作为输入是，无法训练处精确度较高的模型，综上所述，现有技术中单目图像获取的深度图像的精确度较差，如何提高由单目图像生成的深度图像的精确度是目前需要解决的问题。

本发明实施例中，通过将单目图像与惯性测量单元(Inertial MeasurementUnit，IMU)数据相结合，通过无监督方式迭代训练深度图像预测模型和运动预测模型，由于IMU数据的加入可以克服现有技术中单目图像获取深度图像过程中单目图像受光照的影响、拍摄单目图像的摄像机的快速运动的影响，以及单目图像中会存在尺度模糊等问题；因此通过无监督方式迭代训练出的深度图像预测模型的精确度较高。

本发明实施例中，图1是本发明的一种调整深度图像预测模型的方法流程图。如图1所示，具体包括如下步骤：

步骤S100、获取顺序拍摄的图像序列。

在一种可能的实现方式中，所述顺序拍摄的图像序列为同一图像采集设备(例如摄像机)按照时间顺序拍摄的，拍摄的时间间隔可以为0.1s、1s等，本发明实施例对其不做限定，按照拍摄的时间对图像进行排序，假设按照时间顺序的先后拍摄了10张图像，图像序列具体为图像1、图像2、图像3、图像4、图像5、图像6、图像7、图像8、图像9和图像10。

步骤S101、获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据。

在一种可能的实现方式中，假设图像序列为上述图像1、图像2、图像3、图像4、图像5、图像6、图像7、图像8、图像9和图像10，则任意两个相邻的图像都可以称为第一图像和第二图像，例如，图像1为第一图像，图像2为第二图像；或者图像2为第一图像，图像3为第二图像，以此类推，本发明实施例在此不再赘述；当图像1为第一图像，图像2为第二图像时，确定图像1和图像2之间的时间段内记录的运动数据，所述运动数据包括惯性测量单元IMU数据，所述IMU数据包括三维加速度数据以及三维陀螺仪数据。通过获取到的第一图像、第二图像、和IMU数据可以确定出损失函数，具体的处理过程如图2所示。

步骤S102、以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化。

在一种可能的实现方式中，将第一图像、第二图像、和IMU数据作为输入，由于所述深度图像预测模型和运动预测模型为无标签模型(即无真实值)，因此不能通过常用的已知输入和输出的方式对模型进行训练，通过获取到的第一图像、第二图像、和IMU数据可以确定出损失函数，以及上述输入对深度图像预测模型和运动预测模型的参数进行无监督方式迭代调整，确定出最优的深度图像预测模型和运动预测模型的参数使损失函数最优化，此时的最优的深度图像预测模型和运动预测模型的参数对应的深度图像预测模型和运动预测模型即本发明实施例需要获取的精确度较高的深度图像预测模型和运动预测模型。

在一种可能的实现方式中，确定出迭代调整后的所述深度图像预测模型之后，还包括：

将至少一张第三图像输入到迭代调整后的所述深度图像预测模型，输出所述第三图像对应的第三初始深度图像。

在一种可能的实现方式中，由于迭代调整后的所述深度图像预测模型的参数使损失函数最优化，则根据所述迭代调整后的所述深度图像预测模型确定出的初始深度图像的精确度也较高。

在一种可能的实现方式中，由于迭代调整后的不仅是深度图像预测模型，还包括运动预测模型，确定出迭代调整后的所述深度图像预测模型和运动预测模型之后，还包括：

将相邻的第三图像和第四图像及在拍摄所述第三图像和第四图像之间的时间段内记录的运动数据输入到迭代调整后的所述运动预测模型，输出所述运动矩阵，其中所述运动矩阵用于确定拍摄所述第三图像和所述第四图像的设备的运动轨迹。

在一种可能的实现方式中，所述深度图像预测模型输出所述第三图像对应的第三初始深度图像、所述第四图像对应的第四初始深度图像。

本发明实施例中，通过获取顺序拍摄的图像序列；获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤包括：基于运动预测模型，根据所述样本数据组确定运动矩阵；基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。通过上述方法，采用无监督方式迭代调整深度图像预测模型和运动预测模型的参数，以使得损失函数最优化，获取到优化的深度图像预测模型和运动预测模型，通过优化的深度图像预测模型对深度图像进行确定，可以提高深度图像的精确度；通过迭代调整后运动预测模型可以获取较为准确的设备运动轨迹。

本发明实施例中，图2是本发明的一种确定所述损失函数的方法流程图。如图2所示，具体包括如下步骤：

步骤S200、基于运动预测模型，根据所述样本数据组确定运动矩阵。

在一种可能的实现方式中，所述运动预测模型包括第一运动编码器、第二运动编码器、以及门控加权网络(Re weighting Network)，其中，所述第一运动编辑器可以为PoseNet，用于确定所述相邻的所述第一图像和所述第二图像的第一运动特征，所述第二运动编码器可以为双向长短期记忆(Bi-directional Long Short-Term Memory，BiLSTM)，用于确定确定IMU数据对应的第二运动特征。

在一种可能的实现方式中，所述根据所述样本数据组确定运动矩阵具体包括：根据所述相邻的所述第一图像和所述第二图像确定第一运动特征；根据所述IMU数据确定第二运动特征；将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵。

在一种可能的实现方式中，所述根据所述相邻的所述第一图像和所述第二图像确定第一运动特征，其中，所述第一运动特征即摄像机的运动特征，具体包括：将所述相邻的所述第一图像和所述第二图像进行堆叠；根据所述第一运动编码器PoseNet提取所述堆叠的所述相邻的所述第一图像和所述第二图像的第一运动特征。

举例说明，假设相邻的所述第一图像和所述第二图像为两帧连续图像，分别为I_a和I_b，将所述I_a和I_b堆叠在一起之后，通过第一运动编码器PoseNet提取第一运动特性，所述PoseNet可以是由7层步长为2的二维卷积神经网络构成，所述卷积神经网络，是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理；所述二维卷积神经网络中，每一层的输出通道数分别为(16，32，64，128，256，256，256)，卷积核大小分别为(7，5，3，3，3，3，3)，所有层都使用线性整流函数(Rectified Linear Unit，ReLU))作为激活函数；最后通过所述PoseNet确定出的所述第一运动特征通过f_V表示，具体的：

f_V＝PoseNet(I_a，I_b)

在一种可能的实现方式中，所述根据所述IMU数据确定第二运动特征，具体包括：通过所述第二运动编码器BiLSTM确定所述IMU数据对应的第二运动特征。

举例说明，所述惯性测量单元IMU能够产生高频率、不受环境影响且尺度一致的数据，克服了单目图像的缺点，但是IMU容易受到自身的噪声以及偏差的影响，导致对IMU数据的积分会产生难以估量的误差，因此，本发明实施例中采用含有32个隐藏层的双向长短期记忆BiLSTM网络作为IMU数据的运动编辑，由于所述BiLSTM网络采用双向的设计，能够捕捉连续两帧之间前向和后向两种排列顺序的第二运动特征，对应于在计算连续两帧相互变换时的前向后向关系；本发明实施例中，通过

表示连续两帧图像(相邻的第一图像和第二图像)之间的IMU数据，则IMU数据对应的第二运动特征通过f_I表示，具体的：

在一种可能的实现方式中，所述根据摄像机获取的图像确定的第一运动特征与通过IMU数据确定的第二运动特征具有互补性，即。在适当的照明下，摄像机获取适合于预测静态和不同区域的精确平移，而IMU数据提供高频、尺度一致不受环境影响的运动估计，具体的，假设摄像机的拍照频率为0.1秒每帧，而IMU数据的采集频率为0.01秒，因此，本发明实施例通过门控加权网络将所述第一运动特征与所述第二运动特征进行选择性特征融合，进而确定出适用于不同环境条件以及物体运动动态的运动矩阵。

具体的，将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵，具体包括：根据Sigmoid函数确定所述第一运动特征对应的第一权重系数，并根据所述Sigmoid函数确定所述第二运动特征对应的第二权重系数；根据所述第一运动特征、所述第一权重系数、所述第二运动特征、以及所述第二权重系数确定所述运动矩阵。

举例说明，所述第一权重系数为w_V＝Sigmoid_V(f’_V)，所述第二权重系数为w_I＝Sigmoid_I(f’_I)，所述运动矩阵为P_a→b＝FC([w_I*f_I；w_V*f_V])，其中，所述FC用于表示所述门控加权网络的全连接层，具体的，所述第一权重系数的生成步骤如图3所示，具体包括：

步骤S300、所述第一运动特征经过全连接网络确定第一中间参数。

本发明实施例中，所述中间参数为f’_I，f′_I＝FC(f_I)，实际上所述f’_I为第一运动特征经过数层全连接层后生成的，所述全连接网络属于所述门控加权网络的一部分。

步骤S301、根据所述第一中间参数与Sigmoid函数确定所述第一运动特征对应的第一权重系数。

具体的，所述述Sigmoid函数属于所述门控加权网络的一部分，应用所述Sigmoid函数的非线性能力形成一个门控操作，用以产生动态权重，其中，所述第一权重系数为w_V＝Sigmoid_V(f’_V)。

在一种可能的实现方式中，所述第二权重系数为w_I＝Sigmoid_I(f’_I)，具体的，根据Sigmoid函数确定所述第二权重系数的步骤如图4所示，具体包括：

步骤S400、所述第二运动特征经过所述全连接网络确定第二中间参数。

本发明实施例中，所述中间参数为f’_V，f′_V＝FC(f_V)，实际上所述f’_V为第二运动特征经过数层全连接层后生成的。

步骤S401、根据所述第二中间参数与所述Sigmoid函数确定所述第二运动特征对应的第二权重系数。

具体的，应用所述Sigmoid函数的非线性能力形成一个门控操作，用以产生动态权重，其中，所述第二权重系数为w_I＝Sigmoid_I(f’_I)。

步骤S201、基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像。

具体的，所述深度图像预测模型包括图像编码器DepthNet，可选的，所述DepthNet可以为卷积神经网络(Convolutional Neural Network，CNN)，所述深度图像预测模型中还未经过迭代调整，因此深度图像预测模型中的参数为最初的初始化参数，由于采用的是初始化参数，因此根据此时的深度图像预测模型预测的第一初始深度图像和第二初始深度图像的精确度较差，需要后续根据损失函数对参数进行调整。

步骤S202、根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。

在一种可能的实现方式中，损失函数包括图像重构损失函数、深度一致损失函数以及深度平滑损失函数。

具体的，所述损失函数通过L_total表示，所述图像重构损失函数通过L_gc表示，所述深度一致损失函数通过L_rec表示，所述深度平滑损失函数通过L_ds表示，则所述损失函数具体为：

L_total＝αL_gc+βL_rec+γL_ds

其中，α，β，γ为参数，所述参数的具体数值可以通过人工定义，例如，分别取值如下：α＝0.5，β＝1，γ＝0.1。

下面对图像重构损失函数、深度一致损失函数以及深度平滑损失函数的获取进行具体的说明：

所述图像重构损失函数，假设通过I_a和I_b重构的

与I_a在相同的像素坐标上，其像素值保持一致，同时两张图像的结构相似度也应该保持在极高水准，因此本发明实施例定义所述图像重构损失函数为L_rec：

其中，所述M_rec是根据预测的初始深度图像以及运动矩阵所解算出来的有效点掩码，所述有效点掩码即不出现在相机里的边缘像素点，所述图像结构相似度SSIM用于衡量结构相似性，所述λ₁与λ₂为权重参数，所述权重参数可以人为设置，例如，设置所述λ₁为0.15，所述λ₂为0.85，本发明实施例对其不做限定。

在一种可能的实现方式中，如何对I_a和I_b重构生产

的具体过程如图5所示：具体如下：

步骤500、根据所述第一图像中任一像素点的二维坐标，确定所述任一像素点在所述第一图像对应的所述第一初始深度图像中的三维坐标。

举例说明，确定所述第一图像为I_a，所述I_a对应的第一初始深度图像为D_a，所述第一初始深度图像为D_a中每个像素点用D_a(i,j)表示，通过几何投影，所述第一初始深度图像D_a中每个像素点都可以投影为三维空间点，所述三维空间点通过如下公式表示：

Q(i，j)＝K^-1·D_a(i,j)·[i，j，1]^T

其中，所述Q(i，j)表示的是初始深度图像投影后原像素坐标i，j所对应的三维空间点，K为相机内参数矩阵。

步骤501、根据所述三维坐标以及所述运动矩阵，确定所述第一图像重投影到相邻的所述第二图像的第一参数。

具体的，所述运动矩阵为P_a→b，将所述三维坐标对应的三维点云重投影到相邻帧，即把I_a每一点的像素坐标变换到下一时刻，根据变换后的坐标，在第二图像I_b中通过插值的方式取得上述变换后的坐标对应的像素值，进而生成

举例说明，所述变换后的坐标为

所述

的具体公式如下：

所述

的具体公式如下：

其中，所述第一参数为

根据所述第一参数确定所述图像重构损失函数。

所述深度一致损失函数，其中，所述深度一致所表达的是，同一真实世界点在连续两帧中，由于运动，会发生深度上的变化，而这个变化应当可以用深度及运动表示出来的。也就是说，一个点在t时刻所预测的深度值，经过运动后达到t+1时刻时，变化后的深度值应当与t+1时刻该点所预测的深度值保持一致；由此形成的损失被定义为深度一致损失L_gc：

其中，所述深度一致损失还可以称为几何一致损失，所述M_gc用于表示由几何一致性所解算出来的权重掩码；具体的，第一张深度图和第二张深度图中，第一张深度图中的物体，例如自行车，在第二张深度图中位置移动的，移动后影响计算损失的点，把它排除掉的权重即所述权重掩码，所述

表示变化后的深度值，D′_b表示通过插值后得到的深度值。

本发明实施例中，所述

即第二参数。

所述深度平滑损失，其中，所述深度平滑损失函数用于正则化深度估计，可以优化急剧变化的深度，仅允许深度图中的与原始图一致的像素的急剧变化，具体公式如下：

其中，所述

用于表示X轴的偏导，所述

用于表示Y轴的偏导，所述e为自然常数。

下面通过一个完整的流程图，对一种调整深度图像预测模型的方法进行详细的说明，通过所述流程图可以清晰的了解深度图像预测模型和运动预测模型之间的关系，以及图像和IMU数据的处理过程，具体如图图6所示。

具体的，将两张图像I_a和I_b分别输入到depthNet，生成深度图像D_a和深度图像D_b，将图像I_a和I_b进行堆叠，通过PoseNet生成第一运动特征；获取图像I_a和I_b之间的时间段对应的IMU，所述IMU为6维数据，将所述IMU输入到BiLSTM中，生成第二运动特征，将所述第一运动特征与所述第二运动特征经过门控加权网络(Re weighting Network)进行特征融合，生成运动矩阵(motion)，根据所述运动矩阵，将图像I_a和I_b进行处理生成

将深度图像D_a和D_b进行处理生成

图7是本发明实施例的一种训练图像深度模型的装置示意图。如图7所示，本实施例的装置包括获取单元701、调整单元702和确定单元703。

其中，获取单元701，用于获取顺序拍摄的图像序列；

所述获取单元701还用于，获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；

调整单元702，用于以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤通过确定单元703进行处理，所述确定单元703具体用于：

基于运动预测模型，根据所述样本数据组确定运动矩阵；

基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；

根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。

进一步地，该装置还包括：第一处理单元，用于将至少一张第三图像输入到迭代调整后的所述深度图像预测模型，输出所述第三图像对应的第三初始深度图像。

进一步地，该装置还包括：第二处理单元，用于将相邻的第三图像和第四图像及在拍摄所述第三图像和第四图像之间的时间段内记录的运动数据输入到迭代调整后的所述运动预测模型，输出所述运动矩阵，其中所述运动矩阵用于确定拍摄所述第三图像和所述第四图像的设备的运动轨迹。

进一步地，所述运动数据包括惯性测量单元IMU数据；所述运动预测模型包括所述第一运动编码器PoseNet、所述第二运动编码器BiLSTM、以及所述门控加权网络；所述深度图像预测模型包括图像编码器DepthNnet。

进一步地，所述确定单元具体用于：根据所述相邻的所述第一图像和所述第二图像确定第一运动特征；根据所述IMU数据确定第二运动特征；将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵。

进一步地，所确定单元具体还用于：将所述相邻的所述第一图像和所述第二图像进行堆叠；根据所述第一运动编码器PoseNet提取所述堆叠的所述相邻的所述第一图像和所述第二图像的第一运动特征。

进一步地，所确定单元具体还用于：通过所述第二运动编码器BiLSTM确定所述IMU数据对应的第二运动特征。

进一步地，所述确定单元具体还用于：根据所述门控加权网络确定所述第一运动特征对应的第一权重系数，并根据所述门控加权网络确定所述第二运动特征对应的第二权重系数；根据所述第一运动特征、所述第一权重系数、所述第二运动特征、以及所述第二权重系数确定所述运动矩阵。

进一步地，所述确定单元具体用于：所述第一运动特征经过全连接网络确定第一中间参数；根据所述第一中间参数与Sigmoid函数确定所述第一运动特征对应的第一权重系数。

进一步地，所述确定单元具体用于：所述第二运动特征经过所述全连接网络确定第二中间参数；根据所述第二中间参数与所述Sigmoid函数确定所述第二运动特征对应的第二权重系数。

进一步地，所述IMU数据包括三维加速度数据以及三维陀螺仪数据。

进一步地，所述确定单元还用于：

根据所述第一图像中任一像素点的二维坐标，确定所述任一像素点在所述第一图像对应的所述第一初始深度图像中的三维坐标；根据所述三维坐标以及所述运动矩阵，确定所述第一图像重投影到相邻的所述第二图像的第一参数，以及所述第一图像对应的第一深度图像重投影到相邻的所述第二图像对应的所述第二深度图像的第二参数。

进一步地，所述确定单元具体用于：根据所述第一参数以及第二参数确定所述损失函数。

进一步地，所述损失函数包括图像重构损失函数、深度一致损失函数以及深度平滑损失函数。

图8是本发明实施例的电子设备的示意图。如图8所示，图8所示的电子设备为调整深度图像预测模型的装置，其包括通用的计算机硬件结构，其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器81通过执行存储器82所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起，同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。

其中，存储器82存储的指令被至少一个处理器81执行以实现：获取顺序拍摄的图像序列；获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤包括：基于运动预测模型，根据所述样本数据组确定运动矩阵；基于深度图像预测模型，预测所述第一图像对应的第一初始深度图像和第二图像对应的第二初始深度图像；根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数。

在本发明实施例中，通过上述方法，采用无监督方式迭代调整深度图像预测模型和运动预测模型的参数，以使得损失函数最优化，获取到优化的深度图像预测模型和运动预测模型，通过优化的深度图像预测模型对深度图像进行确定，可以提高深度图像的精确度；通过迭代调整后运动预测模型可以获取较为准确的设备运动轨迹。

在一种可能的实现方式中，所述处理器还用于：

在本发明实施例中，通过优化后的深度图像预测模型确定出的第三初始深度图像的精确度较高。

在一种可能的实现方式中，所述处理器还用于：将相邻的第三图像和第四图像及在拍摄所述第三图像和第四图像之间的时间段内记录的运动数据输入到迭代调整后的所述运动预测模型，输出所述运动矩阵，其中所述运动矩阵用于确定拍摄所述第三图像和所述第四图像的设备的运动轨迹。

在本发明实施例中，通过优化后的深度图像预测模型确定出的第三初始深度图像和第四初始深度图像的精确度较高，通过优化后的运动预测模型预测出的运动矩阵的精度也比较高，

在一种可能的实现方式中，所述运动数据包括惯性测量单元IMU数据；所述运动预测模型包括第一运动编码器PoseNet、第二运动编码器BiLSTM、以及门控加权网络；所述深度图像预测模型包括图像编码器DepthNnet。

在本发明实施例中，所述第一运动编码器PoseNet、所述第二运动编码器BiLSTM、所述门控加权网络以及所述图像编码器DepthNnet四个模型共同训练调整，在训练完成后所述图像编码器DepthNnet可以单独使用，确定深度图像，所述图像编码器DepthNnet也可以与所述第二运动编码器BiLSTM、所述门控加权网络共同使用，确定深度图像和运动矩阵。

在一种可能的实现方式中，所述处理器具体用于：根据所述相邻的所述第一图像和所述第二图像确定第一运动特征；根据所述IMU数据确定第二运动特征；将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵。

在本发明实施例中，将所述第一运动特征与所述第二运动特征相融合，可以生成较佳的运动矩阵。

在一种可能的实现方式中，所述根据所述相邻的所述第一图像和所述第二图像确定第一运动特征，具体包括：将所述相邻的所述第一图像和所述第二图像进行堆叠；根据所述第一运动编码器PoseNet提取所述堆叠的所述相邻的所述第一图像和所述第二图像的第一运动特征。

在本发明实施例中，通过上述方式提取出第一图像和所述第二图像的第一运动特征，也可以称为视觉部分的运动特征。

在本发明实施例中，通过上述方式确定出IMU数据对应的第二运动特征，也可以称为IMU的运动特征。

在一种可能的实现方式中，所述将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵，具体包括：根据Sigmoid函数确定所述第一运动特征对应的第一权重系数，并根据所述Sigmoid函数确定所述第二运动特征对应的第二权重系数；根据所述第一运动特征、所述第一权重系数、所述第二运动特征、以及所述第二权重系数确定所述运动矩阵。

在本发明实施例中，通过所述门控加权网络确定出适用于第一运动特征的第一权重系数和适用于第二运动特征的第二权重系数，然后再根据确定出的两种权重系数确定出的运动矩阵的性能较佳。

在一种可能的实现方式中，根据所述门控加权网络确定所述第一运动特征对应的第一权重系数，具体包括：所述第一运动特征经过全连接网络确定第一中间参数；根据所述第一中间参数与Sigmoid函数确定所述第一运动特征对应的第一权重系数。

在一种可能的实现方式中，根据所述门控加权网络确定所述第二运动特征对应的第二权重系数，具体包括：所述第二运动特征经过所述全连接网络确定第二中间参数；根据所述第二中间参数与所述Sigmoid函数确定所述第二运动特征对应的第二权重系数。

在一种可能的实现方式中，所述IMU数据包括三维加速度数据以及三维陀螺仪数据。

在本发明实施例中，通过IMU数据可以克服第一图像和第二图像的缺点，为优化深度图像预测模型以及运动模型起到了重要的作用。

在一种可能的实现方式中，该方法还包括：根据所述第一图像中任一像素点的二维坐标，确定所述任一像素点在所述第一图像对应的所述第一初始深度图像中的三维坐标；根据所述三维坐标以及所述运动矩阵，确定所述第一图像重投影到相邻的所述第二图像的第一参数，以及所述第一图像对应的第一深度图像重投影到相邻的所述第二图像对应的所述第二深度图像的第二参数。

在本发明实施例中，所述第一参数和所述第二参数数是确定损失函数时不可或缺的因素，准确的确定出第一参数和第二参数可以有利于确定出准确的损失函数。

在一种可能的实现方式中，所述根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数，具体包括：根据所述第一参数以及第二参数确定所述损失函数。

在本发明实施例中，根据所述第一参数以及第二参数确定所述损失函数的误差较小。

在一种可能的实现方式中，所述损失函数包括图像重构损失函数、深度一致损失函数以及深度平滑损失函数。

在本发明实施例中，通过多种类型的损失函数构建出的损失函数准确度更高。

具体地，该电子设备包括：一个或多个处理器81以及存储器82，图8以一个处理器81为例。处理器81、存储器82可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器82作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器81通过运行存储在存储器82中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述训练图像深度模型方法。

存储器82可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器82可选包括相对于处理器81远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器82中，当被一个或者多个处理器81执行时，执行上述任意方法实施例中的调整深度图像预测模型方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明的实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种调整深度图像预测模型的方法，其特征在于，该方法包括：

获取顺序拍摄的图像序列；

获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；

以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤包括：

基于运动预测模型，根据所述样本数据组确定运动矩阵；

2.如权利要求1所述的方法，其特征在于，该方法还包括：

3.如权利要求1所述的方法，其特征在于，该方法还包括：

4.如权利要求1所述的方法，其特征在于，所述运动数据包括惯性测量单元IMU数据；所述运动预测模型包括第一运动编码器PoseNet、第二运动编码器BiLSTM、以及门控加权网络；所述深度图像预测模型包括图像编码器DepthNnet。

5.如权利要求4所述的方法，其特征在于，所述根据所述样本数据组确定运动矩阵，具体包括：

根据所述IMU数据确定第二运动特征；

6.如权利要求5所述的方法，其特征在于，所述根据所述相邻的所述第一图像和所述第二图像确定第一运动特征，具体包括：

将所述相邻的所述第一图像和所述第二图像进行堆叠；

7.如权利要求5所述的方法，其特征在于，所述根据所述IMU数据确定第二运动特征，具体包括：

8.如权利要求5所述的方法，其特征在于，所述将所述第一运动特征与所述第二运动特征进行选择性特征融合，确定所述运动矩阵，具体包括：

根据所述门控加权网络确定所述第一运动特征对应的第一权重系数，并根据所述门控加权网络确定所述第二运动特征对应的第二权重系数；

9.如权利要求8所述的方法，其特征在于，根据门控加权网络确定所述第一运动特征对应的第一权重系数，具体包括：

所述第一运动特征经过全连接网络确定第一中间参数；

根据所述第一中间参数与Sigmoid函数确定所述第一运动特征对应的第一权重系数。

10.如权利要求8所述的方法，其特征在于，根据门控加权网络确定所述第二运动特征对应的第二权重系数，具体包括：

所述第二运动特征经过所述全连接网络确定第二中间参数；

11.如权利要求4所述的方法，其特征在于，所述IMU数据包括三维加速度数据以及三维陀螺仪数据。

12.如权利要求1所述的方法，其特征在于，该方法还包括：

13.如权利要求12所述的方法，其特征在于，所述根据所述第一初始深度图像、第二初始深度图像和所述运动矩阵确定所述损失函数，具体包括：

根据所述第一参数以及第二参数确定所述损失函数。

14.如权利要求1所述的方法，其特征在于，所述损失函数包括图像重构损失函数、深度一致损失函数以及深度平滑损失函数。

15.一种调整深度图像预测模型的装置，其特征在于，该装置包括：

获取单元，用于获取顺序拍摄的图像序列；

所述获取单元还用于，获取多个样本数据组，各样本数据组包括在图像序列中相邻的第一图像和第二图像，以及在拍摄所述第一图像和第二图像之间的时间段内记录的运动数据；

调整单元，用于以无监督方式迭代调整深度图像预测模型和运动预测模型的参数以使得损失函数最优化；其中，确定所述损失函数的步骤通过确定单元进行处理，所述确定单元具体用于：

基于运动预测模型，根据所述样本数据组确定运动矩阵；

16.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-14中任一项所述的方法。

17.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-14任一项所述的步骤。