CN110176042A

CN110176042A - 相机自运动参数估计模型的训练方法、装置及存储介质

Info

Publication number: CN110176042A
Application number: CN201910468894.XA
Authority: CN
Inventors: 秦硕; 李金鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-27

Abstract

本发明实施例提出一种相机自运动参数估计模型的训练方法、装置及计算机可读存储介质。其中相机自运动参数估计模型的训练方法包括：将前后两帧图像输入到相机自运动参数估计模型，相机自运动参数估计模型为神经网络模型；根据前后两帧图像的信息，利用相机自运动参数估计模型预测相机自运动参数；利用预测的相机自运动参数和在前后两帧图像上标注的关键点的信息计算相机自运动参数估计模型的损失函数；利用损失函数训练相机自运动参数估计模型。本发明实施例通过使用神经网络模型减小了计算量，使计算速度更快；考虑到图像的全局信息，避免局部信息错误匹配造成的输出错误；训练数据可覆盖各种场景，可准确预测相机自运动参数，鲁棒性较好。

Description

相机自运动参数估计模型的训练方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种相机自运动参数估计模型的训练方法、装置及计算机可读存储介质。

背景技术

相机自运动参数是自动驾驶技术领域中非常重要的一组参数，其主要作用体现在以下几个方面：

1.校正车辆外部参数。

通常情况下，车辆和相机是相对静止的。在这种情况下，车辆外部参数就是相机的外参。相机的外参包括旋转矩阵和平移矩阵。在进行环境感知的过程中，图像中感知到的物体需要经过车辆外部参数变换才能得到真实的距离。车辆的外部参数需要经过专门标定，标定的时候车辆是静态的，车辆行驶过程中是动态的，因此车辆和摄像头的自运动会导致车辆外部参数不准，需要对车辆外部参数进行校正。

2.预测和补全车道线。

在车道线检测过程中，经常出现车道线模糊的现象。这种情况下车道的划分还是存在的，但是车道线检测算法不能很好地检测到车道线。针对这种情况可以通过历史帧的车道线检测结果，进行车辆位姿变换来预测当前帧的车道线位置。而进行车辆位姿变换需要使用相机自运动参数。以上方法也可以对车道线检测结果进行多重校验，保证结果的稳定性。

现有的相机自运动参数估计采用的是关键点检测与匹配的方法。其中，特征提取算法包括：SURF(Speeded Up Robust Features，加速稳健特征)算法、FAST(Features fromaccelerated segment test，加速段测试的特征)算法、SIFT(Scale-invariant featuretransform，尺度不变特征变换)算法、ORB(Oriented FAST and Rotated BRIEF)算法、Harris(哈里斯)角点检测算法。特征匹配算法包括：利用特征提取算法获得关键点的特征，即一系列的特征向量；然后通过计算特征向量的距离来进行特征点匹配。

现有的相机自运动估计方法存在以下缺陷：

1.现有方法计算速度比较慢。关键点检测通常使用HOG(Histogram of OrientedGradient，方向梯度直方图)、HARRIS、SIFT等算法。这类方法对图像中每个像素周围的一片区域进行运算，得到特征向量。在选取特征向量之后还要对不同帧之间的特征点进行匹配，需要花费大量的计算资源。

2.现有方法不准确。关键点检测算法通常使用的是局部特征点算法，并没有考虑到图像的全局信息，容易造成错误的匹配。比如，道路上的车道线是连续重复的线段，图像的边缘或角点特征是相似的，因此在匹配的时候可能匹配到另一段车道线，这种情况下计算出来的相机运动参数是错误的。

3.现有方法鲁棒性较差。现有方法基于特征点检测，然而在某些情况下图像上没有明显的角点或边缘等特征点。比如一些空旷的路段场景比较单一。另外，在遭遇强光的时候，现有方法也不能检测到关键点。比如：示例场景一、对向来车的远光灯让图像过曝；示例场景二、迎着太阳开车的时候路面有大量的反光。在以上示例场景中，使用现有方法不能检测到关键点。

发明内容

本发明实施例提供一种相机自运动参数估计模型的训练方法、装置及计算机可读存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种相机自运动参数估计模型的训练方法，包括：

将前后两帧图像输入到相机自运动参数估计模型，所述相机自运动参数估计模型为神经网络模型；

根据所述前后两帧图像的信息，利用所述相机自运动参数估计模型预测相机自运动参数；

利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数；

利用所述损失函数训练所述相机自运动参数估计模型。

在一种实施方式中，所述前后两帧图像包括第一图像和第二图像，所述第一图像是所述第二图像之前的一帧图像且所述第一图像与所述第二图像之间间隔N帧图像，其中，N是大于等于0的整数；

所述在所述前后两帧图像上标注的关键点的信息包括：在所述第一图像上标注的所述第一关键点的信息和在所述第二图像上标注的所述第二关键点的信息，且所述第一关键点对应于所述第二关键点；

利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数，包括：

利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，所述投影点是所述第一关键点投影到所述第二图像上的点；

计算所述投影点与所述第二关键点之间的距离，将所述距离作为所述损失函数的值。

在一种实施方式中，N的取值范围为4≥N≥0。

在一种实施方式中，利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，包括：

利用相机坐标系和图像坐标系的变换关系，将所述第一关键点在图像坐标系下的坐标转换为相机坐标系下的坐标；

利用所述预测的相机自运动参数和所述第一关键点在相机坐标系下的坐标，计算所述投影点在相机坐标系下的坐标；

利用相机坐标系和图像坐标系的变换关系，将所述投影点在相机坐标系下的坐标转换为所述投影点在图像坐标系下的坐标。

在一种实施方式中，利用所述损失函数训练所述相机自运动参数估计模型，包括：

利用随机梯度下降法对所述相机自运动参数估计模型进行训练，通过计算所述损失函数对所述相机自运动参数估计模型进行反向传播，更新所述相机自运动参数估计模型的网络参数；

在训练到所述相机自运动参数估计模型收敛的情况下，将所述相机自运动参数估计模型的网络参数固定。

在一种实施方式中，利用所述损失函数训练所述相机自运动参数估计模型之后，还包括：

利用训练好的所述相机自运动参数估计模型估计所述相机自运动参数。

第二方面，本发明实施例提供了一种相机自运动参数估计模型的训练装置，包括：

输入单元，用于将前后两帧图像输入到相机自运动参数估计模型，所述相机自运动参数估计模型为神经网络模型；

预测单元，用于根据所述前后两帧图像的信息，利用所述相机自运动参数估计模型预测相机自运动参数；

计算单元，用于利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数；

训练单元，用于利用所述损失函数训练所述相机自运动参数估计模型。

所述计算单元包括：

投影点计算子单元，用于利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，所述投影点是所述第一关键点投影到所述第二图像上的点；

距离计算子单元，用于计算所述投影点与所述第二关键点之间的距离，将所述距离作为所述损失函数的值。

在一种实施方式中，N的取值范围为4≥N≥0。

在一种实施方式中，所述投影点计算子单元用于：

在一种实施方式中，所述训练单元用于：

在一种实施方式中，所述装置还包括估计单元，所述估计单元用于：

第三方面，本发明实施例提供了一种相机自运动参数估计模型的训练装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述相机自运动参数估计模型的训练方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种相机自运动参数估计设备，所述设备用于：利用上述相机自运动参数估计模型的训练装置训练好的相机自运动参数估计模型估计所述相机自运动参数。

第五方面，本发明实施例提供了一种相机自运动参数估计系统，包括上述相机自运动参数估计模型的训练装置和上述相机自运动参数估计设备。

第六方面，本发明实施例提供了一种计算机可读存储介质，用于存储相机自运动参数估计模型的训练装置所用的计算机软件指令，其包括用于执行上述相机自运动参数估计模型的训练方法所涉及的程序。

上述技术方案具有如下优点或有益效果：上述技术方案利用神经网络模型估计相机自运动参数。由于神经网络模型的基本算子很少，且输入图像可以很小，因而减小了计算量，使计算速度更快；神经网络的表达能力很强，可以充分考虑到图像的全局信息，避免局部信息错误匹配造成的输出错误；神经网络的训练数据可以覆盖各种各样的场景，例如在过曝、反光、雨雾等场景下也可以准确地预测相机自运动参数，因此本发明实施例的相机自运动参数估计模型具有较好的鲁棒性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。

图2示出根据本发明实施例的相机自运动参数估计模型的训练方法的姿态角示意图。

图3示出根据本发明实施例的相机自运动参数估计模型的训练方法的图像坐标示意图。

图4示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。

图5示出根据本发明实施例的相机自运动参数估计模型的训练方法的损失函数计算示意图。

图6示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。

图7示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。

图8示出根据本发明实施例的相机自运动参数估计模型的训练装置的计算单元的结构框图。

图9示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。

图10示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。如图1所示，该相机自运动参数估计模型的训练方法包括：

步骤S110，将前后两帧图像输入到相机自运动参数估计模型，所述相机自运动参数估计模型为神经网络模型；

步骤S120，根据所述前后两帧图像的信息，利用所述相机自运动参数估计模型预测相机自运动参数；

步骤S130，利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数；

步骤S140，利用所述损失函数训练所述相机自运动参数估计模型。

神经网络模型是由大量处理单元互联组成的非线性、自适应的信息处理系统，具有自组织、自学习能力。本发明实施例采用神经网络模型估计相机自运动参数。由于神经网络模型的基本算子很少，且输入图像可以很小，因而减小了计算量，使计算速度更快。许多硬件平台都支持神经网络模型的加速，比如可使用NVIDIA(英伟达)公司的TensorRT加速库。英伟达TensorRT是一种高性能神经网络推理引擎，用于在生产环境中部署深度学习应用程序。神经网络的表达能力很强，可以充分考虑到图像的全局信息，避免局部信息错误匹配造成的输出错误。神经网络的训练数据可以覆盖各种各样的场景，例如在过曝、反光、雨雾等场景下也可以准确地预测相机自运动参数，因此本发明实施例的相机自运动参数估计模型具有较好的鲁棒性。

具体地，步骤S110中，在相机获取的视频信息中选取前后两帧图像，例如选取相邻的两帧图像。将选取的前后两帧图像输入到神经网络模型中。在步骤S120中，利用神经网络模型预测相机自运动参数，其中，相机自运动参数可包括相机的姿态角，也叫欧拉角。欧拉角是用来确定定点转动刚体位置的3个一组的独立角参数，用来描述刚体在三维欧几里得空间的取向。本发明实施例中，相机的姿态角包括pitch、yaw、roll参数。图2示出根据本发明实施例的相机自运动参数估计模型的训练方法的姿态角示意图。在图2中用飞机的模型展示了pitch、yaw、roll这三个角。其中，pitch是围绕X轴旋转的角度，也叫做俯仰角；yaw是围绕Y轴旋转的角度，也叫偏航角；roll是围绕Z轴旋转的角度，也叫翻滚角。

在步骤S130中，利用神经网络模型预测的相机自运动参数和前后两帧图像上标注的关键点的信息计算损失函数的值loss。在步骤S140中，通过计算loss对神经网络模型进行反向传播，更新网络参数，以训练所述相机自运动参数估计模型。

在一种实施方式中，所述前后两帧图像包括第一图像和第二图像，所述第一图像是所述第二图像之前的一帧图像且所述第一图像与所述第二图像之间间隔N帧图像，其中，N是大于等于0的整数。

本发明实施例中关键点的选取方式可以是手动选取的。在前后两帧图像中，可以分别找到一个位置，作为选取的关键点。而且在前后两帧图像中分别找到的位置在真实世界中是同一个点。例如首先在前一帧图像中找到第一关键点，然后再在当前帧图像中找到与第一关键点对应的第二关键点。第一关键点和第二关键点对应于真实世界中的同一个点。在图像中选取点的时候，可以选取地面上的点。选取的点可以是角点等纹理分明的点，例如车道线的边缘，护栏和地面交接的地方。

在一种实施方式中，N的取值范围为4≥N≥0。例如，可选取相邻的两帧图像作为输入神经网络模型的前后两帧图像。再如，也可以是选择的前后两帧图像之间间隔1至4帧图像。

在无人车的外部参数标定过程中，可以获得相机的内参、外参，以及车辆的高度。其中，相机的内参包括相机的焦距和主点的位置信息。相机的外参包括旋转矩阵和平移矩阵。旋转矩阵描述了世界坐标系的坐标轴相对于相机坐标轴的方向。平移矩阵描述了在相机坐标系下空间原点的位置。旋转矩阵和平移矩阵共同描述了如何把点从世界坐标系转换到相机坐标系。

假设地面是一个固定不变的平面，因此在图像上选取地面上的点，即可通过IPM(inverse perspective mapping，逆透视映射)算法获得图像上选取的地面上的点在相机坐标系下的三维坐标。

其中，逆透视映射是透视映射的逆过程，可利用相机的角度、高度等位置信息建立三维坐标系，消除透视作用，得到场景的俯视图。经过逆透视映射之后，原本有相交趋势的车道线转化为俯视图中的平行线，更便于检测。相机通过实时图像采集能够获取丰富的路面信息，在有合适的光照的前提下，这种信息的获取不受环境其他因素的约束，具有普适性。但由于透视原理所造成的视觉上的畸变导致难以从相机中提取到有效的信息。为了有效地将图像信息利用起来，首先要考虑的是消除这种误差。透视原理所带来的视觉畸变在数学上可以定性地解释为三维景象的不规则投影所造成的。为了消除这种畸变，从数学上将透射过程进行逆变换，将三维景象进行俯视投影。这一逆变换过程称之为逆透视映射。

在一种实施方式中，所述在所述前后两帧图像上标注的关键点的信息包括：在所述第一图像上标注的所述第一关键点的信息和在所述第二图像上标注的所述第二关键点的信息，且所述第一关键点对应于所述第二关键点。

图3示出根据本发明实施例的相机自运动参数估计模型的训练方法的图像坐标示意图。图3中的字母标号含义如下：u₁和v₁表示在第一图像上标注的第一关键点在图像坐标系下的坐标；u₂和v₂表示在第二图像上标注的第二关键点在图像坐标系下的坐标；P表示选取的点在世界坐标系下的坐标。如图3所示，第一关键点和第二关键点对应于地面上的同一个点，因此第一关键点和第二关键点转换到世界坐标系下对应于同一个点P。

相机图像处理过程中涉及到以下四个坐标系：

1)图像坐标系

相机采集的数字图像在计算机内可以存储为数组，数组中的每一个元素可以用像素表示，像素的值即是图像点的亮度(灰度)。在图像上定义直角坐标系u-v，每一像素的坐标(u，v)分别是该像素在数组中的列数和行数。故(u，v)是以像素为单位的图像坐标系的坐标。

2)成像平面坐标系

由于图像坐标系只表示像素位于数字图像的列数和行数，并没有用物理单位表示出该像素在图像中的物理位置，因而需要再建立以物理单位(例如厘米)表示的成像平面坐标系x-y。用(x，y)表示以物理单位度量的成像平面坐标系的坐标。

3)相机坐标系

相机坐标系是以相机的聚焦中心为原点，以光轴为Z轴建立的三维直角坐标系。相机坐标系的原点为相机的光心，相机坐标系的x轴与y轴与图像的X,Y轴平行，相机坐标系的z轴为相机光轴，它与图形平面垂直。

4)世界坐标系

在环境中选择一个参考坐标系来描述摄像机和物体的位置，该坐标系称为世界坐标系。相机坐标系和世界坐标系之间的关系可用旋转矩阵R与平移向量t来描述。

可采用以下公式进行坐标变换：

其中，K是相机的内参矩阵(Intrinsic matrix)；f_x和f_y是表示相机的焦距的参数；c_x和c_y是表示相机的主点的位置信息的参数；R是相机的外参矩阵(Extrinsic matrix)；r是相机的旋转矩阵(Camera rotation matrix)；t是相机的平移矩阵。

图4示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。如图4所示，在一种实施方式中，图1中的步骤S130，利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数，具体可包括：

步骤S210，利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，所述投影点是所述第一关键点投影到所述第二图像上的点；

步骤S220，计算所述投影点与所述第二关键点之间的距离，将所述距离作为所述损失函数的值。

图5示出根据本发明实施例的相机自运动参数估计模型的训练方法的损失函数计算示意图。在前后两帧图像上，有一组对应点，这组点在前后两帧图像上表示的是地面上的同一个位置。图5中的浅色的一组点表示投影点，深色的一组点表示第二关键点。由于第一关键点和第二关键点是一一对应的关系，所以投影点与第二关键点也存在一一对应关系。图5中用一条线段连接的一个深色点和一个浅色点表示投影点与第二关键点的一一对应关系。

具体地，在图4的步骤S210中，利用神经网络模型输出的pitch、roll、yaw角度和IPM算法计算出前后两帧图像中前一帧关键点投影到当前帧的点。其中，前后两帧图像中的前一帧也就是第一图像，当前帧也就是第二图像。前一帧关键点投影到当前帧的点，也就是第一关键点投影到第二图像上的投影点。在步骤S220中，计算投影点与当前帧上对应关键点之间的距离，将这个距离作为神经网络模型的loss。其中，当前帧上对应关键点是当前帧上与第一关键点对应的第二关键点。

在坐标变换的公式中，用P₁和P₂分别表示在前后二帧图像中选取的点在相机坐标系下的坐标，R表示相机的外参矩阵，则

P₂＝R·P₁

图像坐标系与相机坐标系之间的换算关系可表示为：

其中，P_i表示在各帧图像中选取的点在相机坐标系下的坐标，其具体的坐标值用X、Y、Z表示；Z表示选取的点在相机坐标系下的Z轴坐标值，也是相机坐标系下的物体深度；Z₁和Z₂分别表示在前后二帧图像中选取的点在相机坐标系下的物体深度；(u,v)表示图像坐标系的坐标。

图6示出根据本发明实施例的相机自运动参数估计模型的训练方法的流程图。如图6所示，在一种实施方式中，图4中的步骤S210，利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，具体可包括：

步骤S310，利用相机坐标系和图像坐标系的变换关系，将所述第一关键点在图像坐标系下的坐标转换为相机坐标系下的坐标；

步骤S320，利用所述预测的相机自运动参数和所述第一关键点在相机坐标系下的坐标，计算所述投影点在相机坐标系下的坐标；

步骤S330，利用相机坐标系和图像坐标系的变换关系，将所述投影点在相机坐标系下的坐标转换为所述投影点在图像坐标系下的坐标。

在标注图像中，对于t时刻的图像，选取的关键点在图像坐标系的坐标用表示，相机坐标系的坐标用表示。相机内参矩阵为K，则可知在进行归一化处理之后，相机坐标系和图像坐标系的关系为：

其中，归一化处理的过程为：Z′＝1。

相机外参矩阵为R，计算出投影点需要利用外参矩阵对第一关键点的坐标做旋转变换。可由神经网络模型预测的相机自运动参数即pitch、yaw、roll参数得到旋转矩阵。旋转变换之前和之后的相机坐标系的坐标分别用和表示，旋转变换之前和之后的图像坐标系的坐标分别用和表示，则第一关键点通过IPM正变换投射到相机坐标系后，经过旋转变换后的点再通过IPM逆变换投射回图像坐标系的过程为：

在本发明实施例中，假设在理想状态下，相邻两帧选取的对应关键点在图像坐标系中的位置相同。也就是说，在理想状态下，投影点与所述第二关键点的位置是重合的。用表示投影点在图像坐标系下的坐标，也就是前一帧关键点投影到当前帧的点在图像坐标系下的坐标；用表示第二关键点在图像坐标系下的坐标，也就是当前帧上选取的与前一帧关键点对应的关键点的坐标。其中，下标t表示第一图像对应的时刻，也是就当前帧的前一帧图像对应的时刻；下标“t+1”表示第二图像对应的时刻，也是就当前帧图像对应的时刻。则上述假设关系可用以下公式表示：

用(x′,y′)表示投影点在成像平面坐标系下的坐标；用(x,y)表示第二关键点在成像平面坐标系下的坐标，则投影点与第二关键点之间的距离定义为：

其中，i表示标注的关键点的索引编号。

在一个示例中，可采用一个多输入的卷积神经神经网络(CNN，ConvolutionalNeural Networks)估计相机自运动参数。例如，神经神经网络可包含卷积层，池化层，最后通过全卷积层回归出pitch、yaw、roll三个参数。

另外，神经网络模型的训练需要训练数据。训练数据包括图片和标注(label)。本发明实施例中的label就是前后两帧图像之间的pitch、roll、yaw参数。在一个示例中，图像标注的方法如下：在一段视频中，选取相邻的两帧图像，或者选取中间间隔为1至4帧的两帧图像。在选取的两帧图像中选取20对关键点。其中，每一对关键点在两帧图像中表示的位置一致。另外，可以在平坦的路面上选取关键点，以使标注信息更加清晰。

梯度下降法是迭代法的一种。在求解机器学习算法的模型参数时，梯度下降法是最常采用的方法之一。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。本发明实施例利用随机梯度下降法对所述相机自运动参数估计模型进行训练。

反向传播算法是适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。反向传播算法的目的是用网络的实际输出与目标矢量之间的误差修改其权值，使输出值与期望的值尽可能地接近，即使网络输出层的误差达到最小。它是通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差的变化而逐渐逼近目标的。每一次权值和偏差的变化都与网络误差的影响成正比，并以反向传播的方式传递到每一层。

反向传播算法由激励传播、权重更新两个环节反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。信息的正向传递与误差的反向传播在正向传播过程中，输入信息从输入经隐含层逐层计算传向输出层，每一层神经元的状态只影响下一层神经元的状态。如果在输出层没有得到期望的输出，则计算输出层的误差变化值，然后转向反向传播，通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标。

在一个示例中，在权重更新的环节中，对于每个神经元突触上的权重，按照以下步骤进行更新：将输入激励和响应误差相乘，从而获得权重的梯度；将这个梯度乘上一个比例并取反后加到权重上。

在一个示例中，神经网络模型训练的过程可包括：将两帧图像进行色彩维的拼接。例如，两帧图像的形状是1920×1208×3，其中的“3”表示通道数。那么拼接后的图像为1920×1208×6。然后将这个6通道的图像输入到一个多层的神经网络中。以颜色通道为例，一个图片被建立或者打开以后是自动会创建颜色通道的。当编辑图像时，实际上就是在编辑颜色通道。这些通道把图像分解成一个或多个色彩成分。图像的模式决定了颜色通道的数量，如RGB模式有R(Red)、G(Green)、B(Blue)三个颜色通道，分别代表红色、绿色、蓝色的通道。再如CMYK模式(印刷色彩模式)有C(Cyan)、M(Magenta)、Y(Yellow)、K(blacK)四个颜色通道，分别代表青色、洋红、黄色和黑色的通道。又如灰度图只有一个颜色通道。

在训练到神经网络模型收敛之后，将神经网络模型的参数固定，在网络推断的时候使用。其中，网络推断的过程是指神经网络模型训练好之后通过前馈网络(Forwardpropagation network)得到pitch、yaw、roll参数的过程。神经网络模型导入网络结构和参数，输入两帧图像即可输出pitch、yaw、roll参数。在前馈神经网络中，各神经元分层排列，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层。前馈神经网络结构简单，应用广泛，能够以任意精度逼近任意连续函数及平方可积函数，而且可以精确实现任意有限训练样本集。

图7示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。如图7所示，本发明实施例的相机自运动参数估计模型的训练装置包括：

输入单元100，用于将前后两帧图像输入到相机自运动参数估计模型，所述相机自运动参数估计模型为神经网络模型；

预测单元200，用于根据所述前后两帧图像的信息，利用所述相机自运动参数估计模型预测相机自运动参数；

计算单元300，用于利用所述预测的相机自运动参数和在所述前后两帧图像上标注的关键点的信息计算所述相机自运动参数估计模型的损失函数；

训练单元400，用于利用所述损失函数训练所述相机自运动参数估计模型。

图8示出根据本发明实施例的相机自运动参数估计模型的训练装置的计算单元的结构框图。如图8所示，在一种实施方式中，所述前后两帧图像包括第一图像和第二图像，所述第一图像是所述第二图像之前的一帧图像且所述第一图像与所述第二图像之间间隔N帧图像，其中，N是大于等于0的整数；

所述计算单元300包括：

投影点计算子单元310，用于利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，所述投影点是所述第一关键点投影到所述第二图像上的点；

距离计算子单元320，用于计算所述投影点与所述第二关键点之间的距离，将所述距离作为所述损失函数的值。

在一种实施方式中，N的取值范围为4≥N≥0。

在一种实施方式中，所述投影点计算子单元310用于：

在一种实施方式中，所述训练单元400用于：

图9示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。如图9所示，在一种实施方式中，所述装置还包括估计单元500，所述估计单元500用于：

本发明实施例相机自运动参数估计模型的训练装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

图10示出根据本发明实施例的相机自运动参数估计模型的训练装置的结构框图。如图10所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的相机自运动参数估计模型的训练方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种相机自运动参数估计设备，所述设备用于：利用上述相机自运动参数估计模型的训练装置训练好的相机自运动参数估计模型估计所述相机自运动参数。

在一种实施方式中，所述相机自运动参数估计设备与所述相机自运动参数估计模型的训练装置可以是同一设备。利用该设备训练相机自运动参数估计模型，然后利用训练好的所述相机自运动参数估计模型估计所述相机自运动参数。

本发明实施例提供了一种相机自运动参数估计系统，包括上述相机自运动参数估计模型的训练装置和上述相机自运动参数估计设备。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种相机自运动参数估计模型的训练方法，其特征在于，包括：

利用所述损失函数训练所述相机自运动参数估计模型。

2.根据权利要求1所述的方法，其特征在于，

所述前后两帧图像包括第一图像和第二图像，所述第一图像是所述第二图像之前的一帧图像且所述第一图像与所述第二图像之间间隔N帧图像，其中，N是大于等于0的整数；

3.根据权利要求2所述的方法，其特征在于，N的取值范围为4≥N≥0。

4.根据权利要求2所述的方法，其特征在于，利用所述预测的相机自运动参数和逆透视映射算法计算出投影点，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，利用所述损失函数训练所述相机自运动参数估计模型，包括：

6.根据权利要求1至4中任一项所述的方法，其特征在于，利用所述损失函数训练所述相机自运动参数估计模型之后，还包括：

7.一种相机自运动参数估计模型的训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，

所述计算单元包括：

9.根据权利要求8所述的装置，其特征在于，N的取值范围为4≥N≥0。

10.根据权利要求8所述的装置，其特征在于，所述投影点计算子单元用于：

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述训练单元用于：

12.根据权利要求7至10中任一项所述的装置，其特征在于，所述装置还包括估计单元，所述估计单元用于：

13.一种相机自运动参数估计模型的训练装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

14.一种相机自运动参数估计设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述设备用于：利用权利要求13所述的装置训练好的相机自运动参数估计模型估计所述相机自运动参数。

15.一种相机自运动参数估计系统，其特征在于，包括：如权利要求13所述的相机自运动参数估计模型的训练装置和如权利要求14所述的相机自运动参数估计设备。

16.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。