CN110717593A

CN110717593A - 神经网络训练、移动信息测量、关键帧检测的方法及装置

Info

Publication number: CN110717593A
Application number: CN201910972437.4A
Authority: CN
Inventors: 盛律; 徐旦; 欧阳万里
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-21
Anticipated expiration: 2039-10-14
Also published as: CN110717593B

Abstract

本公开提供了一种神经网络训练方法及装置、移动信息测量方法及装置、关键帧检测方法及装置，在训练第一神经网络的过程中，利用了与拍摄目标样本图像的时间最接近的第一关键帧样本图像，该关键帧样本图像是能够表示拍摄设备在拍摄目标样本图像附近的时间段内所拍摄的图像的图像特征的图像。

Description

神经网络训练、移动信息测量、关键帧检测的方法及装置

技术领域

本公开涉及图像处理和测距技术领域，具体而言，涉及一种神经网络训练方法及装置、移动信息测量方法及装置、关键帧检测方法及装置。

背景技术

目前，在计算机视觉、机器人以及自动驾驶等应用场景中，需要根据单个摄像机拍摄的连续帧来估计摄像机的位移信息。

发明内容

本公开至少提供一种神经网络训练方法及装置、移动信息测量方法及装置、关键帧检测方法及装置。

第一方面，本公开提供了一种神经网络训练方法，包括：

从可移动设备上设置的拍摄设备所采集的视频流中，提取训练样本集合，所述训练样本集合包括多个训练样本，每个训练样本包括目标样本图像、与所述目标样本图像的拍摄时间最接近的第一关键帧样本图像、和与所述目标样本图像的拍摄时间相邻的样本图像；

针对每个训练样本中的任意两帧图像组成的测距图像对，经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息；其中，所述测距结果信息用于表示拍摄设备从拍摄所述测距图像对中一帧图像到拍摄另一帧图像的时间段内，拍摄设备可能发生的位移信息；

基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数。

上述公开在训练第一神经网络的过程中，利用了与所述目标样本图像的拍摄时间最近的第一关键帧样本图像，该关键帧样本图像是与与其相邻的关键帧样本图像之间的图像相似度小于设定阈值的图像，因此，该关键帧样本图像是能够表示拍摄设备在拍摄目标样本图像附近的时间段内所拍摄的图像特征的图像。利用包含该关键帧样本图像的多帧图像训练得到的第一神经网络能够克服光度一致性约束造成的无法感知较大范围内的运动的缺陷，可感知可移动设备或拍摄设备在较大范围内的运动，提高确定的拍摄设备在较大范围内的位移信息的准确性。

在一种可能的实施方式中，所述基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数，包括：

根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像之间的图像差异信息；

基于多个训练样本中的每个所述测距图像对对应的图像差异信息，调整所述待训练的第一神经网络中的网络参数。

在一种可能的实施方式中，所述经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息，包括：

将所述测距图像对输入所述第一神经网络；

经所述第一神经网络对输入的所述测距图像对进行图像特征提取和分析处理，以输出所述测距图像对所对应的测距结果信息，所述测距结果信息包括：在测距图像对中的第一图像的坐标系下，表征该测距图像对的两帧图像之间的图像区别特征的第一遮挡掩码、在测距图像对中的第二图像的坐标系下，表征该测距图像对中两帧图像之间的图像区别特征的第二遮挡掩码、从所述第一图像到所述第二图像的第一变换图像与所述第一图像之间的第一图像相似性特征、从所述第二图像到所述第一图像的第二变换图像与所述第二图像之间的第二图像相似性特征；

所述根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像之间的图像差异信息，包括：

针对每个测距图像对，基于该测距图像对所对应的所述第一遮挡掩码、所述第二遮挡掩码、所述第一图像相似性特征和所述第二图像相似性特征，确定该测距图像对中两帧图像之间的图像差异信息。

上述实施方式能够基于待训练的第一神经网络对包含关键帧样本图像的测距图像对进行处理，得到第一遮挡掩码、第一图像相似性特征等信息，之后，基于得到的上述信息确定测距图像对中两帧图像之间的图像差异信息，并能够以两帧图像之间的图像差异信息最小为目标训练第一神经网络的网络参数，由于上述信息中包含了关键帧样本图像对应的信息，因此训练得到第一神经网络，可感知可移动设备或拍摄设备在较大范围内的运动，提高确定的拍摄设备在较大范围内的位移信息的准确性。

在一种可能的实施方式中，所述基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数，还包括：

根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对所对应的正向运动和逆向运动的运动差异信息；所述正向运动为从拍摄测距图像对中的第一图像到拍摄测距图像对中的第二图像的时间段内，所述拍摄设备进行的运动，所述逆向运动为从拍摄测距图像对中的第二图像到拍摄测距图像对中的第一图像的时间段内，所述拍摄设备进行的运动；

基于多个训练样本中的每个所述测距图像对对应的运动差异信息和图像差异信息，调整所述待训练的第一神经网络中的网络参数。

在一种可能的实施方式中，所述测距结果信息包括所述测距图像对的正向运动对应的第一位移信息、所述测距图像对的逆向运动对应的第二位移信息；

所述根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像所对应的正向运动和逆向运动的运动差异信息，包括：

针对每个测距图像对，基于该测距图像对所对应的第一遮挡掩码、第二遮挡掩码、第一位移信息和第二位移信息，确定该测距图像对所对应的正向运动和逆向运动的运动差异信息。

上述实施方式能够基于待训练的第一神经网络对包含关键帧样本图像的测距图像对进行处理，得到第一遮挡掩码、第一位移信息等，之后，基于得到的上述信息确定测距图像对对应的运动差异信息，并能够以测距图像对对应的图像差异信息和运动差异信息最小为目标，训练第一神经网络。由于上述信息中包含了关键帧样本图像对应的信息，因此训练得到的第一神经网络能够提高确定的拍摄设备在较大范围内的位移信息的准确性。

在一种可能的实施方式中，所述第一图像相似性特征包括：所述第一变换图像与所述第一图像之间的结构相似性特征、所述第一变换图像与所述第一图像之间的查尔邦尼损失特征；

所述第二图像相似性特征包括所述第二变换图像与所述第二图像之间的结构相似性特征、所述第二变换图像与所述第二图像之间的查尔邦尼损失特征。

在一种可能的实施方式中，所述与所述目标样本图像的拍摄时间相邻的样本图像包括：所述视频流中的与所述目标样本图像的拍摄时间相邻的前一帧图像、和所述视频流中的与所述目标样本图像的拍摄时间相邻的后一帧图像。

在一种可能的实施方式中，上述神经网络训练方法还包括：将所述训练样本集合中的每一帧图像分别输入待训练的第二神经网络，经所述第二神经网络对输入的每一帧图像进行图像深度信息提取处理后输出每一帧图像对应的深度图像；

根据每帧图像的深度图像，确定每帧图像对应的深度图像的图像平滑度信息；

基于每帧图像对应的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述第二神经网络中的网络参数。

在一种可能的实施方式中，所述基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数之前，还包括：

将所述训练样本集合中的每一帧图像分别输入待训练的第二神经网络，经所述第二神经网络对输入的每一帧图像处理进行图像深度信息提取处理后输出每一帧图像对应的深度图像；

所述基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数，包括：

基于每帧图像对应的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数。

上述实施方式中，结合测距结果信息和图像平滑度信息来训练第一神经网络，不仅能够保证训练得到的第一神经网络测量的拍摄设备的位移信息的准确度，也能同时保证训练得到的第二神经网络测量的图像中各个像素点对应的物理点与拍摄设备之间的距离的准确度。

在一种可能的实施方式中，所述训练样本还包括第二关键帧样本图像；所述第二关键帧样本图像为除所述第一关键帧样本图像外，与所述目标样本图像的拍摄时间最接近的关键帧样本图像；

所述神经网络训练方法还包括：

将所述训练样本集合中的每一帧图像分别输入待训练的第二神经网络，经所述第二神经网络对输入的每一帧图像进行图像深度信息提取处理后输出每一帧图像对应的深度图像；

针对每个训练样本中的所述第一关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像中每一帧图像，将该帧图像、该帧图像的深度图像、所述目标样本图像、和所述目标样本图像的深度图像输入待训练的第三神经网络，经所述待训练的第三神经网络进行图像相似度分析处理后输出该帧图像与所述目标样本图像之间的第一图像相似度信息；

针对每个训练样本中的所述第二关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像中每一帧图像，将该帧图像、该帧图像的深度图、所述目标样本图像、和所述目标样本图像的深度图像输入待训练的第三神经网络，经所述待训练的第三神经网络进行图像相似度分析处理后输出该帧图像与所述目标样本图像的第二图像相似度信息；

根据得到的多个第一图像相似度信息、多个第二图像相似度信息、每帧图像对应的深度图像的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述待训练的第三神经网络的网络参数。

上述实施方式能够基于待训练的第二神经网络对包含关键帧样本图像的多帧图像进行处理，得到每帧图像对应的深度测量结果信息，并基于得到深度测量结果信息确定每帧图像对应的图像平滑度信息，以及能够基于待训练第三神经网络，对包含关键帧样本图像等的多帧图像以及每帧图像对应的深度图像等图像进行处理，得到图像相似度信息，并基于得到的图像相似度信息、图像平滑度信息、测距结果信息等训练第三神经网络的网络参数。由于上述信息中包含了拍摄时间与目标样本图像第一接近的第一关键帧样本图像对应的信息，以及拍摄时间与目标样本图像第二接近的第二关键帧样本图像对应的信息，因此训练得到第三神经网络能够较为准确的确定两帧图像之间的图像相似度信息，从而能够提高检测得到的关键帧图像的准确性。

在一种可能的实施方式中，上述神经网络训练方法还包括：

根据得到的多个第一图像相似度信息、多个第二图像相似度信息、每帧图像对应的深度图像的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述待训练的第二神经网络的网络参数。

根据得到的多个第一图像相似度信息、多个第二图像相似度信息、每帧图像对应的深度图像的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述待训练的第一神经网络的网络参数。

上述实施方式中，结合图像相似度信息、图像平滑度信息、测距结果信息来训练第三神经网络，不仅能够保证训练得到的第一神经网络测量的拍摄设备的位移信息的准确度，保证训练得到的第二神经网络测量的图像中各个像素点对应的物理点与拍摄设备之间的距离的准确度，还能同时保证训练得到的第三神经网络检测得到的关键帧图像的准确性。

在一种可能的实施方式中，上述神经网络训练方法还包括：

获取拍摄设备拍摄的第一测试视频流，并从所述第一测试视频流中提取第一目标图像和在拍摄所述第一目标图像之前最近一次拍摄的最近关键帧图像；

将所述第一目标图像和所述最近关键帧图像输入训练得到的第一神经网络，经过所述第一神经网络对输入的图像进行图像特征提取和分析处理后输出所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第一目标图像的时间段内，拍摄设备的位移信息。

由于训练得到的第一神经网络能够克服光度一致性造成了无法准确感知较大范围内的运动的缺陷，因此上述实施方式能够提高确定的拍摄设备在较大范围内的位移信息的准确性。

在一种可能的实施方式中，上述神经网络训练方法还包括：

获取拍摄设备拍摄的第二测试视频流，并从第二测试视频流中提取拍摄设备拍摄的第二目标图像和与所述第二目标图像的拍摄时间相邻的前N帧图像；N为正整数；

将所述第二目标图像和所述前N帧图像输入训练得到的第一神经网络，经过所述第一神经网络对输入的图像进行图像特征提取和分析处理后输出拍摄设备自拍摄所述前N帧图像中任一帧图像至拍摄所述第二目标图像的时间段内，拍摄设备的位移信息。

在一种可能的实施方式中，所述位移信息包括以下至少一项：

所述拍摄设备的三维旋转向量、所述拍摄设备的三维平移向量。

在一种可能的实施方式中，上述神经网络训练方法还包括：

获取拍摄设备拍摄的第三测试视频流，并从第三测试视频流中提取拍摄设备拍摄的第三目标图像；

将所述第三目标图像输入训练得到的第二神经网络，经过所述第二神经网络对输入的图像进行图像深度信息提取处理后输出第三目标图像对应的深度图像。

在一种可能的实施方式中，上述神经网络训练方法还包括：

获取拍摄设备拍摄的第四测试视频流，并从第四测试视频流中提取拍摄设备拍摄的第四目标图像；

将所述第四目标图像、拍摄所述第四目标图像之前最近一次拍摄的关键帧图像、所述第四目标图像对应的深度图像、所述第四目标图像对应的光度残差图像、所述最近一次拍摄的关键帧图像对应的深度图像、和所述最近一次拍摄的关键帧图像对应的光度残差图像，输入所述第三神经网络中，经过所述第三神经网络进行图像相似度分析处理后输出所述第四目标图像是否为关键帧图像的结果信息；

其中，所述第三神经网络用于在确定第四目标图像的第一图像特征和所述最近一次拍摄的关键帧图像的第二图像特征后，基于第一图像特征和第二图像特征，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；基于所述第四目标图像的深度图像、所述第四目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；以及基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度；并在所述图像相似度小于所述预设阈值时，确定所述第四目标图像为新的关键帧图像。

在一种可能的实施方式中，上述神经网络训练方法还包括：

获取拍摄设备拍摄的第五测试视频流，并从第五测试视频流中提取拍摄设备拍摄的连续的多帧图像，并将所述多帧图像作为初始关键帧图像；

对于任意两帧拍摄时间相邻的初始关键帧图像，将该两帧初始关键帧图像、每帧初始关键帧图像对应的深度图像、每帧初始关键帧图像对应的光度残差图像，输入所述第三神经网络中，经过所述第三神经网络进行图像相似度分析处理后输出该两帧初始关键帧图像之间的图像相似度；并在所述图像相似度大于所述预设阈值时，删除该两帧初始关键帧图像中任一帧初始关键帧图像。

第二方面，本公开提供了一种移动信息测量方法，包括：

获取拍摄设备拍摄的第六测试视频流，并从所述第六测试视频流中提取第五目标图像和在拍摄所述第五目标图像之前最近一次拍摄的最近关键帧图像；

基于所述第五目标图像和所述最近关键帧图像，确定所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第五目标图像的时间段内的位移信息。

第三方面，本公开提供了一种关键帧检测方法，包括：

获取拍摄设备拍摄的第七测试视频流，并从所述第七测试视频流中提取第六目标图像和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像；

确定第六目标图像的第三图像特征和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像的第四图像特征，基于第三图像特征和第四图像特征确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；

基于所述第六目标图像的深度图像、所述第六目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；

基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度；

若所述图像相似度小于所述预设阈值，则将所述第六目标图像作为新的关键帧图像。

第四方面，本公开提供了一种神经网络训练装置，包括：

训练样本获取模块，用于从可移动设备上设置的拍摄设备所采集的视频流中，提取训练样本集合，所述训练样本集合包括多个训练样本，每个训练样本包括目标样本图像、与所述目标样本图像的拍摄时间最接近的第一关键帧样本图像、和与所述目标样本图像的拍摄时间相邻的样本图像；

测距信息确定模块，用于针对每个训练样本中的任意两帧图像组成的测距图像对，经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息；其中，所述测距结果信息用于表示拍摄设备从拍摄所述测距图像对中一帧图像到拍摄另一帧图像的时间段内，拍摄设备可能发生的位移信息；

第一网络训练模块，用于基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数。

在一种可能的实施方式中，所述第一网络训练模块具体用于：

在一种可能的实施方式中，所述测距信息确定模块在所述经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息时，具体用于：

将所述测距图像对输入所述第一神经网络；

所述第一网络训练模块在根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像之间的图像差异信息时，具体用于：

在一种可能的实施方式中，所述第一网络训练模块还具体用于：

所述第一网络训练模块在根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中所对应的正向运动和逆向运动的运动差异信息时，具体用于：

在一种可能的实施方式中，所述神经网络训练装置还包括第二网络训练模块；

所述第二网络训练模块用于：

在一种可能的实施方式中，所述第一网络训练模块在基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数之前，还用于：

所述第一网络训练模块在基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数时，具体用于：

所述神经网络训练装置还包括第三网络训练模块；

所述第三网络训练模块用于：

在一种可能的实施方式中，所述第二网络训练模块还用于：

在一种可能的实施方式中，所述第一网络训练模块还用于：

在一种可能的实施方式中，上述装置还包括第一位移信息测量模块，用于：

在一种可能的实施方式中，上述装置还包括第二位移信息测量模块，用于：

获取拍摄设备拍摄的第二测试视频流，并从第二测试视频流中提取第二目标图像和与所述第二目标图像的拍摄时间相邻的前N帧图像；N为正整数；

在一种可能的实施方式中，上述装置还包括深度图像生成模块，用于：

获取拍摄设备拍摄的第三测试视频流，并从第三测试视频流中提取第三目标图像；

在一种可能的实施方式中，上述装置还包括第一关键帧检测模块，用于：

获取拍摄设备拍摄的第四测试视频流，并从第四测试视频流中提取第四目标图像；

在一种可能的实施方式中，上述装置还包括第二关键帧检测模块，用于：

获取拍摄设备拍摄的第五测试视频流，并从第五测试视频流中提取连续的多帧图像，并将所述多帧图像作为初始关键帧图像；

第五方面，本公开提供了一种移动信息测量装置，包括：

第一图像获取模块，用于获取拍摄设备拍摄的第六测试视频流，并从所述第六测试视频流中提取拍摄设备拍摄的第五目标图像和在拍摄所述第五目标图像之前最近一次拍摄的最近关键帧图像；

移动信息确定模块，用于基于所述第五目标图像和所述最近关键帧图像，确定所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第五目标图像的时间内的位移信息。

第六方面，本公开提供了一种关键帧检测装置，包括：

第二图像获取模块，用于获取拍摄设备拍摄的第七测试视频流，并从所述第七测试视频流中提取第六目标图像和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像；

第一相似特征确定模块，用于确定第六目标图像的第三图像特征和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像的第四图像特征，基于第三图像特征和第四图像特征确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；

第二相似特征确定模块，用于基于所述第六目标图像的深度图像、所述第六目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；

相似度确定模块，用于基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度；

关键帧确定模块，用于在所述图像相似度小于所述预设阈值时，将所述第六目标图像作为新的关键帧图像。

第七方面，本公开还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述神经网络训练方法的步骤，或执行上述移动信息测量方法的步骤，或执行上述关键帧检测方法的步骤。

第八方面，本公开还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述神经网络训练方法的步骤，或执行上述移动信息测量方法的步骤，或执行上述关键帧检测方法的步骤。

本公开实施例提供了一种神经网络训练方法及装置、移动信息测量方法，其中，本公开在训练第一神经网络的过程中，利用了与目标样本图像的拍摄时间最近的第一关键帧样本图像，由于相邻关键帧样本图像之间的图像相似度小于预设阈值的图像，因此，该第一关键帧样本图像是能够表示拍摄设备在拍摄目标样本图像附近的时间段内所拍摄的图像的图像特征的图像。利用包含该第一关键帧样本图像的多帧图像训练得到的第一神经网络，可感知可移动设备或拍摄设备在较大范围内的运动，提高确定的拍摄设备在较大范围内的位移信息的准确性。

另外，本公开实施例提供的关键帧检测方法及装置，由于利用了包含拍摄时间与目标样本图像最近的第一关键帧样本图像、拍摄时间与目标样本图像次接近的第二关键帧样本图像、与目标样本图像的拍摄时间相邻的样本图像中图像之间的图像相似度的信息来训练第三神经网络，因此训练得到的第三神经网络能够较为准确的确定两帧图像之间的图像相似度信息，进而能够提高检测得到的关键帧图像的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的一种神经网络训练方法的流程图；

图2示出了本公开实施例提供的神经网络训练方法中，训练第二神经网络的流程图；

图3示出了本公开实施例提供的神经网络训练方法中，训练第三神经网络的流程图；

图4示出了本公开实施例提供的利用第一神经网络确定拍摄设备的位移信息，以及利用第二神经网络确定深度图像的示意图；

图5示出了本公开实施例提供的利用第三神经网络检测关键帧图像的示意图；

图6示出了本公开实施例提供的确定关键帧集合的示意图；

图7示出了本公开实施例提供的一种移动信息测量方法的流程图；

图8示出了本公开实施例提供的一种关键帧检测方法的流程图；

图9示出了本公开实施例提供的一种神经网络训练装置的结构示意图；

图10示出了本公开实施例提供的另一种神经网络训练装置的结构示意图；

图11示出了本公开实施例提供的一种移动信息测量装置的结构示意图；

图12示出了本公开实施例提供的一种关键帧检测装置的结构示意图；

图13示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，应当理解，本公开中附图仅起到说明和描述的目的，并不用于限定本公开的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本公开内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

在对本公开的实施例进行说明之前，首先对本公开实施例中可能用到的术语进行解释：

单目实时定位与地图构建(Simultaneous Localization And Mapping，SLAM)：根据单个拍摄设备拍摄的视频流估计拍摄设备的位移信息以及对拍摄设备拍摄的场景进行构建。具体地，利用单个拍摄设备拍摄的视频流中的图像对拍摄设备进行定位，基于定位的信息确定拍摄设备的位移信息，以及对拍摄设备拍摄的视频流中的图像进行处理，确定图像中各个像素对应的物理点与拍摄设备的距离信息，以基于距离信息构建包括各个物理点的场景。SLAM广泛用于计算机视觉、自动驾驶等场景中。

光度一致性(Photometric Consistency)：某一帧图像对应的深度图像中的像素点的深度值与该图像的邻居图像对应的深度图像中对应的像素点的深度值应该一致，或相差很小。其中，邻居图像是指该帧图像所在视频流中的，与该帧图像的拍摄时间相邻的图像。上述深度值与图像中像素点对应的物理点与拍摄设备的距离相关，因此基于光度一致性以及拍摄时间相邻的图像能够计算拍摄设备的位移信息。

关键帧图像：包含关键内容的图像，所述关键内容是能够用于区分不同关键帧样本图像的图像内容。在本公开中，关键帧图像是能够表征拍摄设备在一个时间段内拍摄的图像的图像特征的图像。在具体筛选关键帧图像的过程中，可以将拍摄设备拍摄的第一帧图像作为首个关键帧图像；对于拍摄设备后续拍摄的每一帧图像，确定该帧图像与拍摄该帧图像之前，最近一次拍摄的关键帧图像之间的图像相似度；若确定的图像相似度小于预设阈值，则将该帧图像作为关键帧图像。利用上述方法确定的关键图像中，任两帧关键帧图像之间存在较大的图像差异。

下面通过具体的实施例对本公开的神经网络训练方法及装置、移动信息测量方法及装置、关键帧检测方法及装置进行详细说明。

如图1所示，本公开的一些实施例提供了一种神经网络训练方法，该方法应用于电子设备，该电子设备可以是拍摄设备本身，也可以是与拍摄设备通信连接的智能终端设备，具体包括如下步骤：

S110、从可移动设备上设置的拍摄设备所采集的视频流中，提取训练样本集合，所述训练样本集合包括多个训练样本，每个训练样本包括目标样本图像、与所述目标样本图像的拍摄时间最接近的第一关键帧样本图像、和与所述目标样本图像的拍摄时间相邻的样本图像。

这里，拍摄设备可以是但不限于安装在自动驾驶设备(如无人车、机器人等)上的拍摄设备，在第一神经网络训练完成之前，利用拍摄设备拍摄视频流训练第一神经网络。在第一神经网络训练完成之后，并且在需要对自动驾驶设备进行自动驾驶控制的时候，利用拍摄设备拍摄当前的视频流，并利用训练完成的第一神经网络对当前拍摄的视频流中的图像进行图像特征提取和分析后输出自动驾驶设备当前的位移信息，继而可以基于当前位移信息确定自动驾驶设备接下来的移动方向、移动距离等。

另外，拍摄设备还可以应用在计算机视觉定位等应用场景中，本公开对拍摄设备的应用场景并不进行限定。

这里的目标样本图像可以是拍摄设备拍摄的视频流中的任一帧图像。这里的与所述目标样本图像的拍摄时间相邻的样本图像可以包括视频流中的与所述目标样本图像的拍摄时间相邻的前一帧图像、和视频流中的与所述目标样本图像的拍摄时间相邻的后一帧图像。当然，与所述目标样本图像的拍摄时间相邻的样本图像还可以包括视频流中的与所述目标样本图像的拍摄时间相邻的前p帧图像、和视频流中的与所述目标样本图像的拍摄时间相邻的后q帧图像。其中，p、q为正整数；

本步骤中，利用与目标样本图像的拍摄时间最近的第一关键帧样本图像来训练第一神经网络，是因为，与除第一关键帧样本图像以外的其他的关键帧样本图像相比，第一关键帧图像的拍摄位置与目标样本图像的拍摄位置较近；与与目标样本图像的拍摄时间相邻的样本图像相比，第一关键帧样本图像拍摄位置与目标样本图像的拍摄位置较远，利用这样的关键帧样本图像来训练第一神经网络，可感知可移动设备或拍摄设备在较大范围内的运动，提高确定的拍摄设备在较大范围内的位移信息的准确性。

应当说明的是，上述第一关键帧样本图像可以是上述与所述目标样本图像的拍摄时间相邻的样本图像中的一帧图像，也可以是区别于上述与所述目标样本图像的拍摄时间相邻的样本图像的一帧图像，但是在训练第一神经网络的过程中，为了保证训练得到的第一神经网络测量的拍摄设备的位移信息的准确度，一般采用区别于上述与所述目标样本图像的拍摄时间相邻的样本图像的一帧图像作为第一关键帧样本图像。

S120、针对每个训练样本中的任意两帧图像组成的测距图像对，经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息；其中，所述测距结果信息用于表示拍摄设备从拍摄所述测距图像对中一帧图像到拍摄另一帧图像的时间段内，拍摄设备可能发生的位移信息。所述第一神经网络用于确定拍摄设备从拍摄一帧图像到拍摄另一帧图像的时间段内，拍摄设备的位移信息。

这里，首先将所述测距图像对输入所述第一神经网络；经所述第一神经网络对输入的所述测距图像对进行图像特征提取和分析处理，以输出所述测距图像对所对应的测距结果信息。

测距结果信息可以包括：在测距图像对中的第一图像的坐标系下，表征该测距图像对的两帧图像之间的图像区别特征的第一遮挡掩码、在测距图像对中的第二图像的坐标系下，表征该测距图像对中两帧图像之间的图像区别特征的第二遮挡掩码、从所述第一图像到所述第二图像的第一变换图像与所述第一图像之间的第一图像相似性特征、从所述第二图像到所述第一图像的第二变换图像与所述第二图像之间的第二图像相似性特征、从拍摄所述第一图像到拍摄所述第二图像的时间段内，所述拍摄设备进行正向运动的第一位移信息、从拍摄所述第二图像到拍摄所述第一图像的时间段内，所述拍摄设备进行逆向运动的第二位移信息。

上述正向运动的两个运动端点与逆向运动的两个运动端点相同。正向和逆向是两个相对的方向，例如，上述正向运动的运动起点为拍摄设备拍摄测距图像对中的第一图像时所在的位置，正向运动的运动终点为拍摄设备拍摄测距图像对中的第二图像时所在的位置；而，上述逆向运动的运动起点为拍摄设备拍摄测距图像对中的第二图像时所在的位置，逆向运动的运动终点为拍摄设备拍摄测距图像对中的第一图像时所在的位置。可见，所述正向运动为从拍摄测距图像对中的第一图像到拍摄测距图像对中的第二图像的时间段内，所述拍摄设备进行的运动，所述逆向运动为从拍摄测距图像对中的第二图像到拍摄测距图像对中的第一图像的时间段内，所述拍摄设备进行的运动。

S130、基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数。

这里，在利用多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述待训练的第一神经网络的网络参数时，可以根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像之间的图像差异信息；之后，基于多个训练样本中的每个所述测距图像对对应的图像差异信息，调整所述待训练的第一神经网络中的网络参数。

在具体实施时，可以基于每个测距图像对所对应的所述第一遮挡掩码、所述第二遮挡掩码、所述第一图像相似性特征和所述第二图像相似性特征，确定该测距图像对中两帧图像之间的图像差异信息。

具体地，利用如下面公式(1)，可以确定多个训练样本中的每个所述测距图像对对应的图像差异信息，以及表征多个训练样本中的所有测距图像对对应的图像差异信息的总和的第一损失信息，之后基于第一损失信息的取值调整待训练的第一神经网络的网络参数。利用下面的公式(1)训练第一神经网络的时候，以第一损失信息的取值最小或第一损失信息的取值趋于稳定为第一神经网络的训练是否完成的标准。

式中，I_t表示第一图像，I_r表示第二图像，M_t表示第一遮挡掩码，M_r表示第二遮挡掩码，I_t←r表示第一变换图像，I_r←t表示第二变换图像，τ表示一个预设常量，ρ表示图像相似性特征，I_vo表示训练样本集合，x表示图像中的像素点。上述τ用于控制遮挡掩码的范围，防止对大范围遮挡的鼓励。

上式中，图像相似性特征可以如下公式确定：

式中，X，Y表示确定图像相似性特征的两帧图像，SSIM表示两帧图像的结构相似性特征，δ表示两帧图像之间的查尔邦尼损失特征，α表示一个预设常量。

利用每个训练样本集合对第一神经网络进行训练，可以得到每个训练样本集合对应的第一神经网络。在利用当前的训练样本集合对第一神经网络进行训练之前，首先利用上一个训练样本集合对应的第一神经网络对当前的训练样本集合中的图像进行处理，确定当前训练样本集合对应的第一损失信息，如果确定的当前训练样本集合对应的第一损失信息与上一个训练样本集合对应的第一损失信息的差异小于预设的阈值，则认为第一神经网络训练完成；否则，利用当前训练样本集合对第一神经网络继续进行训练，直到当前训练样本集合对应的第一损失信息与上一个训练样本集合对应的第一损失信息的差异小于预设的阈值。

在利用多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述待训练的第一神经网络的网络参数时，还可以根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对所对应的正向运动和逆向运动的运动差异信息；之后，基于多个训练样本中的每个所述测距图像对对应的运动差异信息和图像差异信息，调整所述待训练的第一神经网络中的网络参数。

在具体实施时，基于每个测距图像对所对应的第一遮挡掩码、第二遮挡掩码、第一位移信息和第二位移信息，确定该测距图像对所对应的正向运动和逆向运动的运动差异信息。

具体地，利用如下面公式(3)，可以确定多个训练样本中的每个所述测距图像对对应的运动差异信息，以及表征多个训练样本中的所有测距图像对对应的运动差异信息的总和的第二损失信息，之后，基于第二损失信息和第一损失信息的加权求和后的取值调整待训练的第一神经网络的网络参数。在训练第一神经网络的时候，以第一损失信息和第二损失信息的加权求和后的取值最小或取值趋于稳定为第一神经网络的训练是否完成的标准。

式中，I_vo表示训练样本集合，Δω_t表示第一位移信息，Δω_r表示第二位移信息。

利用每个训练样本集合对第一神经网络进行训练，可以得到每个训练样本集合对应的第一神经网络。在利用当前的训练样本集合对第一神经网络进行训练之前，首先利用上一个训练样本集合对应的第一神经网络对当前的训练样本集合中的图像进行处理，确定当前训练样本集合对应的第一损失信息和第二损失信息，如果当前训练样本集合对应的第一损失信息和第二损失信息的加权求和值与上一个训练样本集合对应的第一损失信息和第二损失信息的加权求和值的差异小于预设的阈值，则认为第一神经网络训练完成。否则，利用当前训练样本集合对第一神经网络继续进行训练，直到当前训练样本集合对应的第一损失信息和第二损失信息的加权求和值与上一个训练样本集合对应的第一损失信息和第二损失信息的加权求和值的差异小于预设的阈值。

在SLAM场景或自动驾驶场景中不仅需要第一神经网络来确定拍摄设备的位移信息，还需要第二神经网络来确定拍摄设备所拍摄的图像中的每个像素点对应的物理点与拍摄设备之间的距离，生成拍摄设备所拍摄到的图像的深度图像，以实现地图或场景构建。具体地，如图2所示，上述神经网络训练方法还可以包括如下训练第二神经网络的步骤：

S210、将所述训练样本集合中的每一帧图像分别输入待训练的第二神经网络，经所述第二神经网络对输入的每一帧图像进行图像深度信息提取处理后输出每一帧图像对应的深度图像；所述深度图像中包括对应的图像中每个像素点对应的物理点与所述拍摄设备之间的距离信息；所述第二神经网络用于处理输入的图像，确定图像中每个像素点对应的物理点与所述拍摄设备之间的距离信息，并基于所述距离信息生成并输出对应图像的深度图像。

S220、根据每帧图像的深度图像，确定每帧图像对应的深度图像的图像平滑度信息。

S230、基于每帧图像对应的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述第二神经网络中的网络参数。

在具体实施时，可以利用如下公式(4)，确定每帧图像对应的深度图像的图像平滑度信息，以及表征多帧图像对对应的图像平滑度信息的总和的第三损失信息，之后，基于第三损失信息、第二损失信息和第一损失信息的加权求和后的取值调整待训练的第二神经网络的网络参数。在训练第二神经网络的时候，以第一损失信息、第二损失信息和第三损失信息的加权求和后的取值最小或取值趋于稳定为第二神经网络的训练是否完成的标准。

式中，I_t表示训练样本集合中的任一帧图像。d_t表示任一帧图像中某一像素点对应的物理点与所述拍摄设备之间的距离的倒数。

是一个向量，代表图像梯度在水平和垂直两个方向上的权重，梯度很大时，该方向的权重很小。

上述第三损失信息希望确定的距离信息形成的深度图像可以和输入图像I_t关联，即图像梯度很小的区域，深度图像梯度也很小；图像梯度很大的情况下，深度图像也可以存在比较大的梯度变化。

在确定了每帧图像对应的深度图像的图像平滑度信息之后，可以利用如下步骤对第一神经网络进行进一步的训练：

在具体实施时，以第一损失信息、第二损失信息和第三损失信息的加权求和后的取值最小或取值趋于稳定作为第一神经网络训练是否完成的标准。

上述实施例式中，结合第一损失信息、第二损失信息和第三损失信息来调整第一神经网络和第二神经网络中的网络参数，不仅能够保证训练得到的第一神经网络测量的拍摄设备的位移信息的准确度，也能同时保证训练得到的第二神经网络测量的图像中各个像素点对应的物理点与拍摄设备之间的距离的准确度，即保证构建的深度图像的准确度。

在一些实施例中，本公开还提供了一种用于检测关键帧图像的第三神经网络的训练方法，该方法利用第一关键帧样本图像对应的信息，以及第二关键帧样本图像对应的信息进行训练，训练得到第三神经网络能够较为准确确定两帧图像之间的图像相似度信息，从而能够提高检测得到的新的关键帧图像的准确性。

具体地，如图3所示，上述第三神经网络的训练方法可以利用如下步骤实现：

S310、将所述训练样本集合中的每一帧图像分别输入待训练的第二神经网络，经所述第二神经网络对输入的每一帧图像进行图像深度信息提取处理后输出每一帧图像对应的深度图像；所述深度图像中包括对应的图像中每个像素点对应的物理点与所述拍摄设备之间的距离信息。所述第二神经网络用于处理输入的图像，确定图像中每个像素点对应的物理点与所述拍摄设备之间的距离信息，并基于所述距离信息生成并输出对应图像的深度图像。

S320、根据每帧图像的深度图像，确定每帧图像对应的深度图像的图像平滑度信息。

S330、针对每个训练样本中的所述第一关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像中每一帧图像，将该帧图像、该帧图像的深度图像、所述目标样本图像、和所述目标样本图像的深度图像输入待训练的第三神经网络，经所述待训练的第三神经网络进行图像相似度分析处理后输出该帧图像与所述目标样本图像之间的第一图像相似度信息。所述第三神经网络用于确定一帧图像与与该帧图像的拍摄时间最接近的关键帧图像的图像相似度信息，并基于确定的图像相似度信息，确定该帧图像是否为关键帧图像。

上述深度测量结果信息是由待训练的第二神经网络确定的。

S340、针对每个训练样本中的所述第二关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像中每一帧图像，将该帧图像、该帧图像的深度图像、所述目标样本图像、和所述目标样本图像的深度图像输入待训练的第三神经网络，经所述待训练的第三神经网络进行图像相似度分析处理后输出该帧图像与所述目标样本图像的第二图像相似度信息。

上述第一关键样本帧图像的拍摄时间与目标样本图像的拍摄时间较近，作为关键帧的正样本，上述第二关键帧样本图像的拍摄时间与目标样本图像的拍摄时间较远，作为关键帧的负样本。

应当说明的是，上述第二关键帧样本图像可以是上述与所述目标样本图像的拍摄时间相邻的样本图像中的一帧图像，也可以是区别于上述与所述目标样本图像的拍摄时间相邻的样本图像的一帧图像，但是在训练第三神经网络的过程中，为了保证训练得到的第三神经网络的检测精度，一般采用区别于上述与所述目标样本图像的拍摄时间相邻的样本图像的一帧图像作为第二关键帧样本图像。

S350、根据得到的多个第一图像相似度信息、多个第二图像相似度信息、每帧图像对应的深度图像的图像平滑度信息和每个所述测距图像对分别对应的测距结果信息，调整所述待训练的第三神经网络的网络参数。

在具体实施时，可以利用如下公式(5)，结合多个第一图像相似度信息、多个第二图像相似度信息，确定第四损失信息，之后，结合图像平滑度信息对应的第三损失信息、测距结果信息对应的第一损失信息和第二损失信息，调整所述待训练的第三神经网络中的网络参数。在训练第三神经网络的时候，以第一损失信息、第二损失信息、第三损失信息和第四损失信息的加权求和后的取值最小或取值趋于稳定为第三神经网络训练是否完成的标准。

式中，j_s表示所述第一关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像的集合，j_vo表示所述第二关键帧样本图像和与所述目标样本图像的拍摄时间相邻的样本图像的集合。I_t表示目标样本图像。

上式中，第一项通过第三神经网络得出目标样本图像I_t和j_s中的图像I_s的相似性得分

以及目标样本图像I_t和关键帧的正样本I_p之间的相似性得分因为正常情况下目标样本图像和拍摄时间相邻的图像的相似性会大于目标样本图像和关键帧的正样本的相似性，所以本公开对违背这种观察的相似性排序做出惩罚，对

小于

的情况做出公式(5)中的第一项。

相似地，正常情况下，在j_vo中的图像和目标样本图像的相似性要大于j_vo中的图像和关键帧的负样本的相似性，所以同样可以做出公式(5)中的第二项。

γ_p和γ_n是确保

比

和

更大的常量，而且γ_p可以比γ_n更小一些。

上述相似性得分与下文中的图像相似度相同或正相关。

在具体实施时，可以利用如下公式(6)确定第一损失信息、第二损失信息、第三损失信息和第四损失信息的加权求和后的取值。

L_total＝λ_pcL_pc+λ_ccL_cc+λ_dsL_ds+λ_kfL_kf (6)

式中，L_pc表示第一损失信息，L_cc表示第二损失信息，L_ds表示第三损失信息，L_kf表示第四损失信息，λ_pc表示第一损失信息的权重，λ_cc表示第二损失信息的权重，λ_ds表示第三损失信息的权重，λ_kf表示第四损失信息的权重。

另外，基于上述定第一损失信息、第二损失信息、第三损失信息和第四损失信息的加权求和后的取值最小或趋于稳定，可以进一步训练第一神经网络和第二神经网络。

上述实施方式中，结合第一损失信息、第二损失信息、第三损失信息和第四损失信息，训练第一神经网络、第二神经网络和第三神经网络，不仅能够保证训练得到的第一神经网络测量的拍摄设备的位移信息的准确度，保证训练得到的第二神经网络生成的深度图像的准确度，还能同时保证训练得到的第三神经网络检测得到的新的关键帧图像的准确性。

上面的实施例训练得到了第一神经网络、第二神经网络和第三神经网络，下面对如何应用训练得到的第一神经网络测量拍摄设备的位移信息、如何应用训练得到的第二神经网络生成图像对应的深度图像以及如何应用训练得到的第三神经网络进行关键帧图像检测进行说明。

上面训练得到的第一神经网络不仅能够用来检测从拍摄某帧图像之前，最近一次拍摄关键帧图像，到拍摄该帧图像之间的时间段内，拍摄设备的位移信息，还能检测从拍摄某一帧图像的前N帧图像中的每一帧图像到拍摄该帧图像之间的时间段内，拍摄设备的位移信息。具体地，可以利用如下步骤检测从拍摄某一帧图像之前，最近一次拍摄关键帧图像到拍摄该帧图像之间的时间段内，拍摄设备的位移信息：获取拍摄设备拍摄的第一测试视频流，并从所述第一测试视频流中提取第一目标图像和在拍摄所述第一目标图像之前最近一次拍摄的最近关键帧图像；将所述第一目标图像和所述最近关键帧图像输入训练得到的第一神经网络，经过所述第一神经网络对输入的图像进行图像特征提取和分析处理后输出所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第一目标图像的时间段内，拍摄设备的位移信息。

可以利用如下步骤检测从拍摄某一帧图像的前N帧图像中的每一帧图像到拍摄该帧图像之间的时间段内，拍摄设备的位移信息：获取拍摄设备拍摄的第二测试视频流，并从第二测试视频流中提取拍摄设备拍摄的第二目标图像和与所述第二目标图像的拍摄时间相邻的前N帧图像；N为正整数；将所述第二目标图像和所述前N帧图像输入训练得到的第一神经网络，经过所述第一神经网络对输入的图像进行图像特征提取和分析处理后输出拍摄设备自拍摄所述前N帧图像中任一帧图像至拍摄所述第二目标图像的时间段内，拍摄设备的位移信息。

上述所述位移信息包括以下至少一项：所述拍摄设备的三维旋转向量、所述拍摄设备的三维平移向量。

利用上述第二神经网络，测量图像中各个像素点对应的物理点与拍摄设备之间的距离，以及生成深度图像，具体可以利用如下步骤实现：获取拍摄设备拍摄的第三测试视频流，并从第三测试视频流中提取拍摄设备拍摄的第三目标图像；将所述第三目标图像输入训练得到的第二神经网络，经过所述第二神经网络进行图像深度信息提取处理后得到所述第三目标图像中的各个像素点对应的物理点与所述拍摄设备的距离值；基于确定的所有所述距离值，生成所述第三目标图像对应的深度图像。

如图4所示，在具体实施时，可以利用第一神经网络检测拍摄设备从拍摄目标帧图像(Target Image)到拍摄参考帧图像(Reference Image)时间段内，拍摄设的位移信息{ω，t}，利用第二神经网络确定目标帧图像的深度图像(图4右上角所示图片)和参考帧图像对应的深度图像(图4右下角所示图片)。图中，C_ФD表示第二神经网络的网络参数，C_ФC表示第一神经网络的网络参数。

利用上述第三神经网络检测关键帧图像，具体可以利用如下步骤实现：

获取拍摄设备拍摄的第四测试视频流，并从第四测试视频流中提取拍摄设备拍摄的第四目标图像；将所述第四目标图像、拍摄所述第四目标图像之前最近一次拍摄的关键帧图像、所述第四目标图像对应的深度图像、所述第四目标图像对应的光度残差图像、所述最近一次拍摄的关键帧图像对应的深度图像、和所述最近一次拍摄的关键帧图像对应的光度残差图像，输入所述第三神经网络中，经过所述第三神经网络进行图像相似度分析处理后输出所述第四目标图像是否为关键帧图像的结果信息。

上述深度图像是由第二神经网络生成。

其中，所述第三神经网络用于确定第四目标图像的第一图像特征和所述最近一次拍摄的关键帧图像的第二图像特征，再基于第一图像特征和第二图像特征，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；之后，确定所述第四目标图像的深度图像、所述第四目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像分别对应的图像特征，再基于确定的四个图像特征，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；以及基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度；并在所述图像相似度小于所述预设阈值，确定所述第四目标图像为新的关键帧图像。

如图5所示，上述第三神经网络包括基础神经网络(Base Layers)层、全局平均池化(Global Average Pooling，GAP)层、跨模态注意力机制(Cross-Modal Attention)层、特征融合(Fusion)层和相似性回归处理(Similarity regression)层。在具体实施时，将第四目标图像、拍摄所述第四目标图像之前最近一次拍摄的关键帧图像、所述第四目标图像对应的深度图像、所述第四目标图像对应的光度残差图像、所述最近一次拍摄的关键帧图像对应的深度图像、和所述最近一次拍摄的关键帧图像对应的光度残差图像，输入所述第三神经网络中。之后，第三神经网络利用基础神经网络层对第四目标图像、拍摄所述第四目标图像之前最近一次拍摄的关键帧图像进行处理，输出第四目标图像的第一图像特征和所述最近一次拍摄的关键帧图像的第二图像特征，之后利用全局平均池化层对基础神经网络层输出的数据进行处理，输出第四目标图像和所述最近一次拍摄的关键帧图像的第一图像相似性特征。这里，第四目标图像、拍摄所述第四目标图像之前最近一次拍摄的关键帧图像是未经过处理的图像，可以作为视觉信号(Visual cues)，对应的，第一图像相似性特征即为视觉相似性特征(Visual Feature)。

之后，第三神经网络利用基础神经网络层对第二神经网络确定的第四目标图像的深度图像、所述最近一次拍摄的关键帧图像的深度图像，以及所述第四目标图像对应的光度残差图像、所述最近一次拍摄的关键帧图像对应的光度残差图像进行处理，输出每帧图像对应的图像特征，之后利用全局平均池化层对基础神经网络层输出的数据进行处理，输出所述第四目标图像和所述最近一次拍摄的关键帧图像的第二图像相似性特征。这里，第四目标图像的深度图像、所述最近一次拍摄的关键帧图像的深度图像，以及所述第四目标图像对应的光度残差图像、所述最近一次拍摄的关键帧图像对应的光度残差图像是在原图像的基础上处理得到的图像，用来表示原图像的几何特性，可以作为几何信号(Geometriccues)，对应的，第二图像相似性特征即为几何相似性特征(Geometric Feature)。

最后，第三神经网络利用跨模态注意力机制层和融合层对第一图像相似性特征和第二图像相似性特征进行加权融合处理，之后，第三神经网络利用相似性回归处理层对加权融合的处理结果进行回归处理，得到最后的相似性得分，即确定所述第四目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度。之后基于确定的图像相似度确定第四目标图像是否为关键帧图像。

图5中，f_v表示第一图像相似性特征，f_g表示第二图像相似性特征，a_v表示第一图像相似性特征的权重，a_g表示第二图像相似性特征的权重。

表示第四目标图像与拍摄所述第四目标图像之前最近一次拍摄的关键帧图像的图像相似度。

可以理解，本公开提及的神经网络的具体结构并不限定，可以采用通用的神经网络结构，也可以根据神经网络层按照一定规则堆叠或级联而得，神经网络层包括但不限于卷积层、池化层、非线性层等，结构设计后采用本公开的训练方法来学习相应能力；另外，神经网络待调整的网络参数可包括神经网络层的参数以及不同神经网络层之间的参数，例如可包括但不限于卷积核参数、权重参数等等，本公开对此并不限制。本公开提及的基础神经网络层可以是卷积层、非线性层等用来提取图像特征的神经网络层，或多个上述神经网络层的堆叠结构。

上述关键帧检测的方法是利用插入的方法确定新的关键帧图像，确定的各个关键帧图像组成关键帧集合，来训练上述第一神经网络和第三神经网络。插入关键帧图像的方法可以用在测试阶段和训练阶段，如图6所示，具体地，在训练阶段(Training Phase)进行关键帧插入(Keyframe inserting)，将关键帧图像I_t插入关键帧图像I_k-1 ^K和关键帧图像I_k ^K之间；在测试阶段(Test Phase)进行关键帧检测(Keyframe detection)时，将视频流(Image streaming)中的关键帧图像I_t插入关键帧图像I_k ^K后面。

在训练阶段还可以利用如下步骤确定作为样本的关键帧图像，以形成关键帧集合：

获取拍摄设备拍摄的第五测试视频流，并从第五测试视频流中提取拍摄设备拍摄的连续的多帧图像，并将所述多帧图像作为初始关键帧图像；对于任意两帧拍摄时间相邻的初始关键帧图像，将该两帧初始关键帧图像、每帧初始关键帧图像对应的深度图像、每帧初始关键帧图像对应的光度残差图像，输入所述第三神经网络中，经过所述第三神经网络进行图像相似度分析处理后输出该两帧初始关键帧图像之间的图像相似度；并在所述图像相似度大于所述预设阈值时，删除该两帧初始关键帧图像中任一帧关键帧图像。具体，如图6所示，进行关键帧合并(Keyframe merging)，将关键帧图像I_k-1 ^K和I_k+1 ^K之间的关键帧图像I_k ^K删除。

上面的步骤通过将图像相似度较大的两帧图像中的一帧图像删除的方式来确定关键帧集合。

上述每个关键帧图像都包括三个信息：拍摄时间信息、对应的深度图像以及关键帧图像本身。

下面再通过一个实施对本公开中的移动信息测量方法进行说明。

如图7所示，上述移动信息测量方法包括如下步骤：

S710、获取拍摄设备拍摄的第六测试视频流，并从所述第六测试视频流中提取拍摄设备拍摄的第五目标图像和在拍摄所述第五目标图像之前最近一次拍摄的最近关键帧图像。

S720、基于所述第五目标图像和所述最近关键帧图像，确定所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第五目标图像的时间内的位移信息。

下面再通过一个实施对本公开中的关键帧检测方法进行说明。

如图8所示，上述关键帧检测方法包括如下步骤：

S810、获取拍摄设备拍摄的第七测试视频流，并从所述第七测试视频流中提取第六目标图像和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像。

S820、确定第六目标图像的第三图像特征和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像的第四图像特征，基于第三图像特征和第四图像特征确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征。

S830、基于所述第六目标图像的深度图像、所述第六目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征。

S840、基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度。

S850、若所述图像相似度小于所述预设阈值，则将所述第六目标图像作为新的关键帧图像。

对应于上述神经网络训练方法，本公开实施例还提供了一种神经网络训练装置，该神经网络训练装置应用于与拍摄设备通信连接的智能终端设备，并且该神经网络训练装置及其各个模块能够执行与上述神经网络训练方法相同的方法步骤，并且能够达到相同的有益效果，因此对于重复的部分不再赘述。

具体地，如图9所示，本公开实施例提供的神经网络训练装置包括训练样本获取模块910、测距信息确定模块920和第一网络训练模块930。所述样本获取模块910与测距信息确定模块920连接，测距信息确定模块920与第一网络训练模块930连接。

训练样本获取模块910，用于从可移动设备上设置的拍摄设备所采集的视频流中，提取训练样本集合，所述训练样本集合包括多个训练样本，每个训练样本包括目标样本图像、与所述目标样本图像的拍摄时间最接近的第一关键帧样本图像、和与所述目标样本图像的拍摄时间相邻的样本图像。

测距信息确定模块920，用于针对每个训练样本中的任意两帧图像组成的测距图像对，经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息；其中，所述测距结果信息用于表示拍摄设备从拍摄所述测距图像对中一帧图像到拍摄另一帧图像的时间段内，拍摄设备可能发生的位移信息。

第一网络训练模块930，用于基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数。

上述目标样本图像可以是拍摄设备拍摄的视频流中的任一帧图像。这里的与所述目标样本图像的拍摄时间相邻的样本图像可以包括视频流中的与所述目标样本图像的拍摄时间相邻的前一帧图像、和视频流中的与所述目标样本图像的拍摄时间相邻的后一帧图像。

与除第一关键帧样本图像以外的其他的关键帧样本图像相比，第一关键帧图像的拍摄位置与目标样本图像的拍摄位置较近；与与目标样本图像的拍摄时间相邻的样本图像相比，第一关键帧样本图像拍摄位置与目标样本图像的拍摄位置较远，利用这样的关键帧样本图像来训练第一神经网络，可感知可移动设备或拍摄设备在较大范围内的运动，提高确定的拍摄设备在较大范围内的位移信息的准确性。

在一些实施例中，所述第一网络训练模块930具体用于：

上述测距信息确定模块920在所述经待训练的第一神经网络对所述测距图像对进行图像特征提取和分析处理后输出所述测距图像对所对应的测距结果信息时，具体用于：

将所述测距图像对输入所述第一神经网络；

所述第一网络训练模块930在根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中两帧图像之间的图像差异信息时，具体用于：

上式中，图像相似性特征可以如下公式确定：

在一些实施例中，所述第一网络训练模块930还具体用于：

上述测距结果信息包括所述测距图像对的正向运动对应的第一位移信息、所述测距图像对的逆向运动对应的第二位移信息。

所述第一网络训练模块930在根据所述多个训练样本中的所述测距图像对分别对应的测距结果信息，确定测距图像对中所对应的正向运动和逆向运动的运动差异信息时，具体用于：

在一些实施例中，所述第一图像相似性特征包括：所述第一变换图像与所述第一图像之间的结构相似性特征、所述第一变换图像与所述第一图像之间的查尔邦尼损失特征；

在一些实施例中，所述与所述目标样本图像的拍摄时间相邻的样本图像包括：所述视频流中的与所述目标样本图像的拍摄时间相邻的前一帧图像、和所述视频流中的与所述目标样本图像的拍摄时间相邻的后一帧图像。

在一些实施例中，如图10所示，所述神经网络训练装置包括训练样本获取模块1010、测距信息确定模块1020、第一网络训练模块1030和第二网络训练模块1040。

上述训练样本获取模块1010、测距信息确定模块1020、第一网络训练模块1030的作用与上述实施例中的练样本获取模块910、测距信息确定模块920、第一网络训练模块930在进行神经网络训练时执行的步骤相同，这里不再赘述。

本实施例中，所述第二网络训练模块1040用于：

在一些实施例中，所述第一网络训练模块1030在基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数之前，还用于：

所述第一网络训练模块1030在基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数时，具体用于：

在一些实施例中，所述训练样本还包括第二关键帧样本图像；所述第二关键帧样本图像为除所述第一关键帧样本图像外，与所述目标样本图像的拍摄时间最接近的关键帧样本图像。

所述神经网络训练装置还包括第三网络训练模块1050。所述第三网络训练模块1050用于：

以及目标样本图像I_t和关键帧的正样本I_p之间的相似性得分

因为正常情况下目标样本图像和拍摄时间相邻的图像的相似性会大于目标样本图像和关键帧的正样本的相似性，所以本公开对违背这种观察的相似性排序做出惩罚，对

小于

的情况做出公式(5)中的第一项。

γ_p和γ_n是确保

比

和更大的常量，而且γ_p可以比γ_n更小一些。

L_total＝λ_pcL_pc+λ_ccL_cc+λ_dsL_ds+λ_kfL_kf (6)

在一些实施例中，所述第二网络训练模块1040还用于：

在一些实施例中，所述第一网络训练模块1030还用于：

在一些实例中，神经网络训练装置还包括第一位移信息测量模块1060，用于：

在一些实例中，神经网络训练装置还包括还包括第二位移信息测量模块1070，用于：

在一些实例中，所述位移信息包括以下至少一项：

在一些实例中，神经网络训练装置还包括深度图像生成模块1080，用于：

在一些实例中，神经网络训练装置还包括第一关键帧检测模块1090，用于：

在一些实例中，神经网络训练装置还包括第二关键帧检测模块10100，用于：

对应于上述移动信息测量方法，本公开实施例还提供了一种移动信息测量装置，该种移动信息测量装置应用于与拍摄设备通信连接的智能终端设备，并且该移动信息测量装置及其各个模块能够执行与上述移动信息测量方法相同的方法步骤，并且能够达到相同的有益效果，因此对于重复的部分不再赘述。

具体地，如图11所示，本公开实施例提供的移动信息测量装置包括：

第一图像获取模块1110，用于获取拍摄设备拍摄的第六测试视频流，并从所述第六测试视频流中提取拍摄设备拍摄的第五目标图像和在拍摄所述第五目标图像之前最近一次拍摄的最近关键帧图像；

移动信息确定模块1120，用于基于所述第五目标图像和所述最近关键帧图像，确定所述拍摄设备自拍摄所述最近关键帧图像至拍摄所述第五目标图像的时间内的位移信息。

对应于上述关键帧检测方法，本公开实施例还提供了一种关键帧检测装置，该种关键帧检测装置应用于与拍摄设备通信连接的智能终端设备，并且该关键帧检测装置及其各个模块能够执行与上述关键帧检测方法相同的方法步骤，并且能够达到相同的有益效果，因此对于重复的部分不再赘述。

具体地，如图12所示，本公开实施例提供的关键帧检测装置包括：

第二图像获取模块1210，用于获取拍摄设备拍摄的第七测试视频流，并从所述第七测试视频流中提取第六目标图像和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像；

第一相似特征确定模块1220，用于确定第六目标图像的第三图像特征和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像的第四图像特征，基于第三图像特征和第四图像特征确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；

第二相似特征确定模块1230，用于基于所述第六目标图像的深度图像、所述第六目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像对应的光度残差图像，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；

相似度确定模块1240，用于基于所述第一图像相似性特征和所述第二图像相似性特征，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的图像相似度；

关键帧确定模块1250，用于在所述图像相似度小于所述预设阈值时，将所述第六目标图像作为新的关键帧图像。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例公开了一种电子设备，如图13所示，包括：处理器1301、存储器1302和总线1303，所述存储器1302存储有所述处理器1301可执行的机器可读指令，当电子设备运行时，所述处理器1301与所述存储器1302之间通过总线1303通信。

所述机器可读指令被所述处理器1301执行时执行以下神经网络的训练方法中的步骤：

本公开实施例还提供了一种对应于信息显示方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，本文不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本公开中不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，包括：

2.根据权利要求1所述的神经网络训练方法，其特征在于，所述基于所述多个训练样本中的所述测距图像对分别对应的测距结果信息，调整所述第一神经网络中的网络参数之前，还包括：

3.根据权利要求1所述的神经网络训练方法，其特征在于，所述训练样本还包括第二关键帧样本图像；所述第二关键帧样本图像为除所述第一关键帧样本图像外，与所述目标样本图像的拍摄时间最接近的关键帧样本图像；

所述神经网络训练方法还包括：

4.一种移动信息测量方法，其特征在于，包括：

5.一种关键帧检测方法，其特征在于，包括：

确定第六目标图像的第三图像特征和拍摄所述第六目标图像之前最近一次拍摄的关键帧图像的第四图像特征，基于所述第三图像特征和所述第四图像特征确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第一图像相似性特征；

基于所述第六目标图像的深度图像、所述第六目标图像的光度残差图像、所述最近一次拍摄的关键帧图像的深度图像和所述最近一次拍摄的关键帧图像的光度残差图像，确定所述第六目标图像和所述最近一次拍摄的关键帧图像之间的第二图像相似性特征；

若所述图像相似度小于预设阈值，则将所述第六目标图像作为新的关键帧图像。

6.一种神经网络训练装置，其特征在于，包括：

7.一种移动信息测量装置，其特征在于，包括：

8.一种关键帧检测装置，其特征在于，包括：

关键帧确定模块，用于在所述图像相似度小于预设阈值时，将所述第六目标图像作为新的关键帧图像。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至3任一项所述的神经网络训练方法的步骤，或执行权利要求4所述的移动信息测量方法的步骤，或执行权利要求5所述的关键帧检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至3任一项所述的神经网络训练方法的步骤，或执行权利要求4所述的移动信息测量方法的步骤，或执行权利要求5所述的关键帧检测方法的步骤。