CN111709990A

CN111709990A - 一种相机重定位方法和系统

Info

Publication number: CN111709990A
Application number: CN202010439991.9A
Authority: CN
Inventors: 杨伟力; 杨盛毅; 罗达灿; 刘超; 陈朝猛
Original assignee: Guizhou Minzu University
Current assignee: Guizhou Minzu University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-25
Anticipated expiration: 2040-05-22
Also published as: CN111709990B

Abstract

本发明提供一种相机重定位方法及系统，其中方法包括：S1:获取飞行器在多个时刻的惯性参数序列和场景图像；S2:提取所述飞行器在t‑1时刻至t时刻的所述惯性参数序列的高层次位姿特征a_I；S3:提取所述飞行器在t时刻的所述场景图像的高层次特征a_V；S4:将所述高层次位姿特征a_I和所述高层次特征a_V输入至坐标预测网络中进行预测，所述坐标预测网络输出场景位姿数据；S5:根据所述场景位姿数据建立相机姿态假设池，所述相机姿态假设池中包含多个相机姿态假设，每一个相机姿态假设对应一个可信度分数，所述可信度分数最高的相机姿态假设作为重定位数据，能快速、精确的对相机进行重定位。

Description

一种相机重定位方法和系统

技术领域

本发明涉及相机重定位技术领域，具体涉及一种相机重定位方法和系统。

背景技术

相机重定位是在三维环境中利用二维图像快速、准确地估计六自由度相机位姿，该任务往往作为同步定位与地图重建，增强现实，自主导航等任务的子模块。在传统相机重定位中，三维场景通过SfM(Structure from Motion)、视觉里程计或者地图重建算法获得，查询帧图像需与整个三维场景模型进行匹配，建立2D-3D候选匹配关系，这些候选2D-3D匹配列表在RANSAC(Random Sample Consensus)循环中利用PnP(Perspective-n-point)算法进行几何验证剔除异常点，对通过几何验证的2D-3D匹配再利用PnP估计相机位姿。但在大场景中，计算量则会指数级增长，导致无法满足实时应用，特别对于敏捷型飞行器或无人机需要快速实现定位，提升机动性。

现有高精度相机重定位方法主要基于DSAC++，其设计了可微RANSAC策略(Differentiable SAmple Consensus)，实现端到端训练相机位姿估计网络。但如果网络初始化存在偏差则导致参数搜索空间范围扩大，不仅需要较大网络模型回归位姿，导致其前向推理速度较慢，而且往往只获得局部最优解，无法获得高精度的相机姿态。

发明内容

本发明的目的在于克服现有技术中的缺点，提供一种相机重定位方法及系统，在DSAC++基础之上，将惯性序列参数和图像数据结合，使得精度高，再结合深度神经网络使得重定位速度快，精度进一步提高。

本发明的目的是通过以下技术方案来实现的：一种相机重定位方法，包括以下步骤；

S1：获取飞行器在多个时刻的惯性参数序列和场景图像；

S2：提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征a_I；

S3：提取所述飞行器在t时刻的所述场景图像的高层次特征a_V；

S4：将所述高层次位姿特征a_I和所述高层次特征a_V输入至坐标预测网络中进行预测，所述坐标预测网络输出场景位姿数据；

S5：根据所述场景位姿数据建立相机姿态假设池，所述相机姿态假设池中包含多个相机姿态假设，每一个相机姿态假设对应一个可信度分数，所述可信度分数最高的相机姿态假设作为重定位数据。

本发明的有益效果是，由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助，因此即使存在多个相同结构和特征的区域，也能给正确的估计姿态，使得重定位的精度高，由于提取了高层次位姿特征a_I，从而快速缩小坐标预测网络参数搜索范围，只需轻量型网络就能精确估计姿态，加快定位速度，每一个相机姿态假设对应一个可信度分数，所述可信度分数最高的相机姿态假设作为重定位数据，使得本方法能快速、精确的对相机进行重定位。

进一步，所述S1具体包括：

S101：使用IMU模块采集飞行器在多个时刻的惯性参数序列，所述惯性参数序列包括飞行器的加速度和陀螺姿态信息，所述场景图像为RGB图像。

采用上述进一步方案的有益效果是，IMU模块可测量加速度和陀螺姿态信息，输出的惯性参数序列具有较强的时域特征，频率相比图像数据更高，一般约100Hz，更适合于快速移动情况下的飞行器位姿估计，将惯性参数和场景图像进行融合得到更精确地飞行器姿态。

进一步，所述S2具体包括：

S201：将所述飞行器在t-1至t时刻的所述惯性参数序列输入至三层双向LSTM模型，所述LSTM模型输出所述高层次位姿特征a_I，所述高层次位姿特征a_I为：a_I＝f_inertial(x_I)，其中f_inertial()是LSTM编码器，x_I是IMU数据序列。

采用上述进一步方案的有益效果是，利用长短期记忆模型LSTM(long short-termmemory)直接从惯性参数序列提取高层次特征表达a_I，将高层次特征a_I嵌入至场景坐标预测网络，作为一组辅助特征与DSAC++中的场景坐标预测网络进行特征融合，缩小模型参数搜索空间，促进丰富的图像特征获得高精度位姿。

进一步，所述S3具体包括：

S301：将所述飞行器在t时刻的所述场景图像输入至基于DSAC++中的场景坐标预测FCN网络，所述FCN前端编码器提取的高层次特征a_V为：a_V＝f_camera(I)，其中，f_camera()为FCN前端编码器，I为所述场景图像的RGB图像。

采用上述进一步方案的有益效果是，输入场景图时，将分辨率设置为640x480，进入DSAC++中的场景坐标预测FCN网络，最终产生80x60个点的稠密场景坐标预测，FCN是一种经典网络结构，在像素级分类任务(如语义分割、光流估计等)具有良好表现，因此在像素级三维坐标估计任务上也能达到较好的结果。

进一步，所述S4具体包括：

S401：通过FCN网络将所述高层次位姿特征a_I和所述高层次特征a_V进行融合，得到融合特征z，z＝g(a_V，a_I)，其中，进行融合的方式为直接拼接，即：g_dreat(a_V，a_I)＝[a_V，a_I]；

S402：根据所述融合特征z，所述FCN网络输出场景位姿数据，所述场景位姿数据为对应原始图像的各个图像块的三维坐标。

采用上述进一步方案的有益效果是，由于每一帧场景图像的高层次特征a_V，都有时间对齐的惯性参数序列的高层次位姿特征a_I进行辅助，因此对于存在多个相同结构和特征的区域，也能给正确的估计姿态，且将惯性参数序列的高层次位姿特征a_I融合至场景坐标预测模型，而无需初始化步骤，提升定位精度，同时辅助姿态信息的使用缩小了网络参数搜索空间，因此只需较小的网络模型即可达到好的位姿估计结果。

进一步，所述FCN网络的后10层卷积层替换为4层可分离卷积层。

采用上述进一步方案的有益效果是，将FCN后10层卷积层替换为4层可分离卷积层，网络层数的降低自然提升前向推理速度，同时轻量化网络具有更好的泛化能力，更能适应新的自然场景。

进一步，所述S5中具体包括：

S501：随机挑选一个场景位姿数据子集构建一个相机姿态假设池{h_i，i＝1…N}；

S502：根据可微RANSAC策略依据重投影误差给出每一个假设h_i对应的可信度分数s(h_i)，所述重投影误差为r_j(h_i，w)＝||Ch_i ^-1y_j(w)-p_j||，其中C是相机内参矩阵，p_j是该设定相机姿态下图像坐标系下的像素坐标值；

S503：根据所述重投影误差计算可信度分数s(h_i)＝∑_isig(τ-β(r_j(h_i，w)))，其中，超参β用于调节sigmoid函数的柔性程度，τ为内点阈值；

S504：依据softmax分布P(j；w；α)选择所述假设，

其中超参是固定分布尺度的参数，得分最高的相机姿态假设作为重定位数据，重定位数据为h_i＝[R|t]，其中t为相机的三维位移，R为欧拉角表示的方向矩阵。

采用上述进一步方案的有益效果是，对每一个相机姿态假设计算可信度分数，使用softmax分布P(j；w；α)选择最佳相机姿态假设作为重定位数据，使得精度高。

进一步，所述S5还包括：

S505：利用信息熵策略自适应地调节分布的尺度，对所述softmax输出概率采用自适应调节超参α：

其中，目标熵值设定为S^*，利用梯度下降算法依据argmin_a|S(a)-S^*|优化α。

采用上述进一步方案的有益效果是，由于不同环境下分数幅度波动较大，为保证分数在有效范围内，进而保证端到端训练更加稳定和易于收敛，利用信息熵策略自适应地调节分布的尺度。

一种相机重定位系统，包括惯性参数序列获取模块、场景图像获取模块、高层次位姿特征提取模块、高层次特征提取模块、坐标预测模块和相机姿态假设选择模块；

所述惯性参数序列获取模块用于获取飞行器在多个时刻的惯性参数序列，并发送至所述高层次位姿特征提取模块；

所述高层次位姿特征提取模块用于提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征a_I，并发送至所述坐标预测模块；

所述场景图像获取模块用于获取飞行器在多个时刻的场景图像，并发送至所述高层次特征提取模块；

所述高层次特征提取模块用于所述飞行器在t时刻的所述场景图像的高层次特征a_V，并发送至所述坐标预测模块；

所述坐标预测模块用于根据所述高层次位姿特征a_I和高层次特征a_V输出场景位姿数据，并发送至所述相机姿态假设选择模块；

所述相机姿态假设选择模块用于根据所述场景位姿数据建立相机姿态假设池，所述相机姿态假设池中包含多个相机姿态假设，每一个相机姿态假设对应一个可信度分数，所述可信度分数最高的相机姿态假设作为重定位数据。

本发明的有益效果是，由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助，因此即使存在多个相同结构和特征的区域，也能给正确的估计姿态，使得重定位的精度高，由于提取了高层次位姿特征a_I，从而快速缩小坐标预测网络参数搜索范围，只需轻量型网络就能精确估计姿态，加快定位速度，每一个相机姿态假设对应一个可信度分数，所述可信度分数最高的相机姿态假设作为重定位数据，使得本方法能快速、精确的对相机进行重定位

进一步，所述相机姿态假设选择模块计算重定位数据的具体过程为：

S504：依据softmax分布P(j；w；α)选择所述假设，

如表1所示，为本发明中英文名称释义

表1

附图说明

图1为本发明的一种相机重定位方法的流程图；

图2为本发明的一个实施例的网络结构图；

图3为本发明与现有技术的实验结果对比图；

图4为本发明的一种相机重定位系统的结构图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下。

实施例1

参照图1，一种相机重定位方法，包括以下步骤；

S1：获取飞行器在多个时刻的惯性参数序列和场景图像；

S2：提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征a_I；

S3：提取飞行器在t时刻的场景图像的高层次特征a_V；

S4：将高层次位姿特征a_I和高层次特征a_V输入至坐标预测网络中进行预测，坐标预测网络输出场景位姿数据；

S5：根据场景位姿数据建立相机姿态假设池，相机姿态假设池中包含多个相机姿态假设，每一个相机姿态假设对应一个可信度分数，可信度分数最高的相机姿态假设作为重定位数据。

由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助，因此即使存在多个相同结构和特征的区域，也能给正确的估计姿态，使得重定位的精度高，由于提取了高层次位姿特征a_I，从而快速缩小坐标预测网络参数搜索范围，只需轻量型网络就能精确估计姿态，加快定位速度，每一个相机姿态假设对应一个可信度分数，可信度分数最高的相机姿态假设作为重定位数据，使得本方法能快速、精确的对相机进行重定位。

参照图1，S1具体包括：

所述S1具体包括：

其中，场景图像是包含飞行器所在的周围环境的信息的图像，惯性参数序列是包含加速度和陀螺姿态信息的时间序列，包含每个测量时间对应的加速度和陀螺姿态信息，IMU模块可测量加速度和陀螺姿态信息，输出的惯性参数序列具有较强的时域特征，频率相比图像数据更高，一般约100Hz，更适合于快速移动情况下的飞行器位姿估计，将惯性参数和场景图像进行融合得到更精确地飞行器姿态。

参照图2，S2具体包括：

S201：将飞行器在t-1至t时刻的惯性参数序列输入至三层双向LSTM模型，LSTM模型输出高层次位姿特征a_I，高层次位姿特征a_I为：a_I＝f_inertial(x_I)，其中f_inertial()是LSTM编码器，x_I是IMU数据序列。

利用长短期记忆模型LSTM(long short-term memory)直接从惯性参数序列提取高层次特征表达a_I，将高层次特征a_I嵌入至场景坐标预测网络，作为一组辅助特征与DSAC++中的场景坐标预测网络进行特征融合，缩小模型参数搜索空间，促进丰富的图像特征获得高精度位姿。

参照图2，S3具体包括：

S301：将飞行器在t时刻的场景图像输入至基于DSAC++中的场景坐标预测FCN网络，FCN前端编码器提取的高层次特征a_V为：a_V＝f_camera(I)，其中，f_camera()为FCN前端编码器，I为场景图像的RGB图像。

输入场景图时，将分辨率设置为640x480，进入DSAC++中的场景坐标预测FCN网络，最终产生80x60个点的稠密场景坐标预测，FCN是一种经典网络结构，在像素级分类任务(如语义分割、光流估计等)具有良好表现，因此在像素级三维坐标估计任务上也能达到较好的结果。

S4具体包括：

S401：通过FCN网络将高层次位姿特征a_I和高层次特征a_V进行融合，得到融合特征z，z＝g(a_V，a_I)，其中，进行融合的方式为直接拼接，即：g_dreat(a_V，a_I)＝[a_V，a_I]；

S402：根据融合特征z，FCN网络输出场景位姿数据，场景位姿数据对应原始图像的各个图像块的三维坐标。

由于每一帧场景图像的高层次特征a_V，都有时间对齐的惯性参数序列高层次位姿特征a_I进行辅助，因此对于存在多个相同结构和特征的区域，也能给正确的估计姿态，且将惯性参数序列的高层次位姿特征a_I融合至场景坐标预测模型，而无需初始化步骤，提升定位精度，同时辅助姿态信息的使用缩小了网络参数搜索空间，因此只需较小的网络模型即可达到好的位姿估计结果。

FCN网络的后10层卷积层替换为4层可分离卷积层。

将FCN后10层卷积层替换为4层可分离卷积层，网络层数的降低自然提升前向推理速度，同时轻量化网络具有更好的泛化能力，更能适应新的自然场景。

S5中具体包括：

S502：根据可微RANSAC策略依据重投影误差给出每一个假设h_i对应的可信度分数s(h_i)，重投影误差为r_j(h_i，w)＝||Ch_i ^-1y_j(w)-p_j||，其中C是相机内参矩阵，p_j是该设定相机姿态下图像坐标系下的像素坐标值；

S503：根据重投影误差计算可信度分数s(h_i)＝∑_isig(τ-β(r_j(h_i，w)))，其中，超参β用于调节sigmoid函数的柔性程度，τ为内点阈值；

S504：依据softmax分布P(j；w；α)选择假设，

对每一个相机姿态假设计算可信度分数，使用softmax分布P(j；w；α)选择最佳相机姿态假设作为重定位数据，使得精度高。

S5还包括：

S505：利用信息熵策略自适应地调节分布的尺度，对softmax输出概率采用自适应调节超参α：

由于不同环境下分数幅度波动较大，为保证分数在有效范围内，进而保证端到端训练更加稳定和易于收敛，利用信息熵策略自适应地调节分布的尺度。

具体实施时，实验采用数据集Cambridge Landmarks dataset和7 Scenesdataset，Cambridge Landmarks dataset使用智能手机拍摄室外场景视频，并用SfM算法标注位姿，该数据集具有行人、车辆、光照变化、天气变化等难度较高的场景。7 Scenesdataset是使用Kinect V1拍摄的一组室内场景数据集，包括7个办公室场景，每个场景在一间房内拍摄，该数据集包括许多无纹理场景。超参初始为0.1，设置为0.5，内点阈值设置为10个像素。使用ADAM优化器进行优化，ADAM优化器结合AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计(First Moment Estimation，即梯度的均值)和二阶矩估计进行综合考虑，计算出更新步长。其中，学习率设置为10^-6。

参照图3，为在两个数据集下的不同场景测试得到的相机位姿估计的中值误差，在两个数据集上，均得到了与DSAC++极具竞争力的性能。在7Scenes数据集中获得更好的实验效果，特别是在角度误差上明显比DSAC++的误差要小，这是因为7Scenes数据集在室内场景拍摄，存在较多无纹理区域，因此图像信息提供的位姿估计能力相对较弱，此时，IMU姿态信息对位姿的贡献得到明显体现，

参照图3，在Stairs场景中，DSAC++位置误差和角度误差分别是0.29m和5.1°，本发明的重定位网络中位置误差降低为0.21m，角度误差则大大降低为原来的一半。可见，本发明的重定位网络对于无纹理或弱纹理场景具有良好的位姿精度。在Cambridge Landmarks数据集中部分场景也获得了较好结果。Cambridge Landmarks在室外拍摄，室外自然场景纹理更加丰富，图像信息就能够获得较好的位姿估计。

实施例2

在实施例1的基础上，一种相机重定位系统，包括惯性参数序列获取模块、场景图像获取模块、高层次位姿特征提取模块、高层次特征提取模块、坐标预测模块和相机姿态假设选择模块；

惯性参数序列获取模块用于获取飞行器在多个时刻的惯性参数序列，并发送至高层次位姿特征提取模块；

高层次位姿特征提取模块用于提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征a_I，并发送至坐标预测模块；

场景图像获取模块用于获取飞行器在多个时刻的场景图像，并发送至高层次特征提取模块；

高层次特征提取模块用于飞行器在t时刻的场景图像的高层次特征a_V，并发送至坐标预测模块；

坐标预测模块用于根据高层次位姿特征a_I和高层次特征a_V输出场景位姿数据，并发送至相机姿态假设选择模块；

相机姿态假设选择模块用于根据场景位姿数据建立相机姿态假设池，相机姿态假设池中包含多个相机姿态假设，每一个相机姿态假设对应一个可信度分数，可信度分数最高的相机姿态假设作为重定位数据。

惯性参数序列获取模块为IMU模块，场景图像获取模块为RGB-D相机，均安装在所述飞行器上，IMU模块用于采集飞行器多个时刻的惯性参数，图像采集模块用于采集飞行器多个时刻的场景图像，惯性参数包括加速度和陀螺姿态信息，场景图像为RGB图像。IMU模块可测量加速度和陀螺姿态信息，输出的惯性参数序列具有较强的时域特征，频率相比图像数据更高，一般约100Hz，更适合于快速移动情况下的飞行器位姿估计，将惯性参数和场景图像进行融合得到更精确地飞行器姿态。

高层次位姿特征提取模块提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征a_I的具体过程为：

高层次特征提取模块提取飞行器在t时刻的场景图像的高层次特征a_V的过程为：

坐标预测模块根据高层次位姿特征a_I和高层次特征a_V输出场景位姿数据的具体过程为：

FCN网络的后10层卷积层替换为4层可分离卷积层。

相机姿态假设选择模块对息计算重定位数据的具体过程为：

S504：依据softmax分布P(j；w；α)选择假设，

以上仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护。