CN113724325B

CN113724325B - 一种基于图卷积网络的多场景单目相机位姿回归方法

Info

Publication number: CN113724325B
Application number: CN202110602225.4A
Authority: CN
Inventors: 孟海宁; 郑毅; 朱磊; 李维; 周荣
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-05-28
Anticipated expiration: 2041-05-31
Also published as: CN113724325A

Abstract

本发明公开了一种基于图卷积网络的多场景单目相机位姿回归方法。首先训练一个多场景的特征提取网络用于位姿回归。然后借助图卷积，优化学习图像特征间的隐藏信息。使用训练完成的特征提取网络得到图像特征，将图像特征构建特征图谱，作为图卷积网络的输入，回归得到优化后的相机位姿。本发明提出的方法结合了多场景单模型训练方式、图像特征构图及图卷积网络，增强了模型泛化能力，提高了位姿回归性能，改善了多场景模型训练时的参数爆炸问题。

Description

一种基于图卷积网络的多场景单目相机位姿回归方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于图卷积网络的多场景单目相机位姿回归方法。

背景技术

近年来，机器人和无人机领域面临着一个待解决的问题，如何在陌生环境中定位自己所在位置，即自身的定位工作。相机位姿回归，是一项几何和视觉相结合的任务，在同步定位与建图(simultaneous localization and mapping，SLAM)中是一个很重要的组成部分，过去几十年间受到了计算机视觉领域和机器人领域的广泛关注。单目相机位姿回归，就是一种极端的子情况，在不使用其他辅助信息的条件下，只利用相机自身的参数，来估计相机的位姿。目前，已有很多机器人的定位系统以及惯性导航系统中，使用了相机位姿回归方法来辅助定位。

传统的单目位姿回归方法如ORB-SLAM、VINS-mono等在现实应用中已经可以达到很高的精度，但传统方法，如SIFT、ORB，特征提取时鲁棒性较弱，该类方法在陌生环境中或是特征变化较大的环境下，定位性能较差。近些年，由于卷积神经网络(ConvolutionalNeural Networks,CNN)强大的特征提取能力，在计算机视觉任务中，如图像分类、图像分割、目标检测、目标识别等，经常会用到CNN结构来提取视觉特征。此外，也有很多研究工作者使用CNN来解决位姿回归问题，但是由于相机位姿更多的偏向于几何信息，而不是视觉语义信息，单纯使用CNN模型，泛化能力较弱，模型训练时容易出现过拟合，对于陌生环境，亦容易失去定位的准确度。此外，传统基于CNN的相机位姿回归方法，忽视了各图像之间的位姿关联性。有些研究工作中，使用相对位姿建模来回归图像帧之间包含的位姿信息，但是这种方法在相对位姿回归任务中增加了网络训练的难度，且最终是否有益于整体的位姿回归，并不具备良好的解释性。

图卷积神经网络(Graph Convolutional Network,GCN)，作为图神经网络的一种，通过图结点之间隐藏信息的更迭，使整个图卷积网络得到收敛，从而更好地提取相邻结点之间包含的信息。此外，单模型多场景同时训练，又可以很大程度地增加模型的泛化能力，解决单场景遗留的模型泛化能力不足的问题，同时也改善了多场景训练参数爆炸的问题。

发明内容

本发明的目的是提供一种基于图卷积网络的多场景单目相机位姿回归方法，以解决现有技术中存在的单场景方法面临的模型泛化能力不足，以及不能有效地提取图像帧间关联信息的问题。对于待查询图像，首先训练一个多场景的特征提取网络用于位姿回归。然后借助图卷积，优化学习图像特征间的隐藏信息。使用训练完成的特征提取网络得到图像特征，将图像特征构建特征图谱，作为图卷积网络的输入，回归得到优化后的相机位姿。本发明提出的方法结合了多场景单模型训练方式、图像特征构图及图卷积网络，增强了模型泛化能力，提高了位姿回归性能，改善了多场景模型训练时的参数爆炸问题。

本发明所提出的技术方案是，一种基于图卷积网络的多场景单目相机位姿回归方法，具体包括以下步骤：

步骤1，对多场景数据集图像进行预处理操作，包括图像分辨率重调、随机裁剪、归一化、中心裁剪、转换成Tensor数据类型操作；

步骤2，将步骤1预处理后的图像，输入特征提取网络，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征；

步骤3，使用步骤2中特征提取网络得到的图像特征，构建特征图谱，计算特征图谱对应的邻接矩阵、度矩阵、标签矩阵及特征矩阵；

步骤4，将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵，放入图卷积网络中，训练图卷积网络直至收敛；

步骤5，采用位置误差和旋转误差作为本发明所提方法的位姿回归性能评价指标，设置多组对比实验来评估模型泛化能力，根据最终评估结果，决定模型是否重新迭代。

步骤1中，多场景数据集包括室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes。

步骤1具体实现方式为：

使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整，将图像分辨率调整到256*256，对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224，对测试数据集使用中心裁剪方式，分辨率同样为224*224，此外将图像矩阵转换为Pytorch框架中的Tensor数据类型，并对图像矩阵进行归一化操作。

步骤2具体使用ImageNet分类数据集预训练的EfficientNet-b0权重，进行网络权重初始化。将步骤1预处理后的图像，输入特征提取网络，定义特征提取网络的损失函数，配置网络的训练参数，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征。

步骤2的具体步骤如下：

步骤2.1，将步骤1中预处理后的图像，作为特征提取网络的输入，输入图像的尺寸调整为224*224，使用ImageNet预训练的EfficientNet-b0权重对特征提取网络进行权重初始化；

步骤2.2，将分辨率为224*224的带标注训练集图像，放入特征提取网络中进行训练；

步骤2.3，将分辨率大小为224*224的带标注训练图像，输入到特征提取网络，将特征提取网络输出的特征矩阵，输入到全连接层，进行特征维度转变，然后经过场景分类分支，预测训练图像最可能的场景索引，根据预测的索引从权重数据库选择相应的权重，最终预测得到训练图像相机位姿。经损失函数的约束，网络参数优化调整，训练直至特征提取网络收敛；

步骤2.4，使用步骤2.3中训练完成的特征提取网络，获取输入图像的图像特征，用于特征图谱的构建。

步骤2.2特征提取网络的损失函数定义如下：

L_x(I_c)＝||x_n-x_pred||₂(1)

L_q(I_c)＝||q_n-q_pred||₂(2)

L_σ(I_c)＝L_x(I_c)*exp(-s_x)+s_x+L_q(I_c)*exp(-s_q)+s_q(3)

式中L_σ(I_c(为特征提取网络针对位姿回归任务的损失函数，I_c为任意一张训练或测试图像；L_x(I_c(是位置估计的损失函数，x_n为真实位置标注，x_pred为模型估计的位置，即L_x(I_c(是真实位置标注和模型估计位置的二范数；L_q(I_c(是旋转估计的损失函数，q_n为真实旋转标注，q_pred为模型估计的旋转，即L_q(I_c(是真实旋转标注和模型估计旋转的二范数。s_x和s_q是仅与位置和旋转估计任务相关的参数，其中和/>分别是在位置和旋转估计任务中学习到的参数；式中特征提取网络最终的损失函数；L_σ(I_c(为位姿回归损失，s_{pred_i}为预测的场景索引分布，s_{true_i}为真实的场景标注，N为数据集包含场景数。

步骤4中，利用图卷积网络作为步骤2特征提取网络的有优化方案，更深层次的提取图像特征之间的隐藏信息，进一步优化了基于CNN卷积网络的多场景位姿回归性能。其具体步骤如下：

步骤4.1，采用频域卷积作为本发明中图卷积的实施方法，将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵，输入到图卷积网络中；

步骤4.2，经过4个图卷积层和1个全连接层，进行维度转换，最后到位姿回归器，预测输入特征图谱对应的位姿，图卷积网络在步骤2的损失函数的约束下，反向传播误差，调整网络参数，训练图卷积网络直至网络收敛。

步骤4.1中频域卷积的公式具体为：

F′＝D^-0.5*A′*D^-0.5*F*θ (6)

其中F为步骤3.3中计算得到的特征矩阵，D是步骤3.3中计算得到的度矩阵，A为步骤3.3中计算得到的邻接矩阵，A′为邻接矩阵A和特征图谱结点自循环的相加；θ为图卷积网络的权重，是图卷积网络的待学习参数。

步骤5中，使用步骤1所述的测试图像集，进行模型评估。设置性能评价和泛化能力评估两个评估方案，得到模型最终的评估结果，其具体步骤如下：

步骤5.1，给定预处理后的测试图像Q_i，放入特征提取网络进行特征提取，得到图像特征行向量X_i；

步骤5.2，重复步骤5.1，得到所有测试图像的特征向量，将其构建特征图谱，并计算它的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F，作为图卷积网络的输入；

步骤5.3，根据步骤1所述的测试数据集，使用位置误差和旋转误差，作为位姿回归的性能评价指标，在迭代50次后取位置误差和旋转误差的中位数，得到最终的位姿回归性能指标。

步骤5.4，为了评估模型的泛化能力，设置多组对比实验，使用跟本发明所提方法完全一致的特征提取网络结构EffcientNet-b0，根据对比实验配置，使用不同权重初始化的Efficientnet-b0，评估模型在不同数据集上的泛化能力。

步骤5.5，结合步骤5.3中位姿回归性能评价以及步骤5.4中的模型泛化能力评估，给出模型最终评估结果。如模型合格，则得到最终的多场景位姿回归模型：否则重复步骤2-5，直至模型合格。

步骤5.3中，位置误差和旋转误差的具体计算方法为：

Error_t＝||T_pred-T_true||₂ (7)

式中，T_pred为模型输出的待查询图像的预测位置，T_true为待查询图像的真实位置标注，表示真实位置和预测位置的差值的绝对值。位置误差表示真实旋转和预测旋转之间的角度差的绝对值，其中R_pred为模型输出的待图像的预测旋转，R_true为该图像对应的真实旋转标注。

本发明的有益效果为：

1)本发明方法提出一种基于图卷积网络的多场景单目相机位姿回归方法。结合图卷积网络、传统卷积神经网络以及多场景单模型训练方式，改善了多场景模型训练带来的参数爆炸问题，提高了模型的泛化能力；

2)本发明方法利用图卷积来学习图像特征之间的隐藏信息，作为CNN特征提取网络的后期优化，利用CNN强大的特征提取能力，结合二者的优势，有效提取图像特征间的几何信息，提升了位姿回归的性能；

3)本发明方法采用多场景单模型训练机制，训练时考虑场景因素，在应对陌生未知环境时，可作为现实应用场景的位姿回归模型权重初始化方法。

附图说明

图1是本发明一种基于图卷积网络的多场景单目相机位姿回归方法整体流程图；

图2是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所使用的室内数据集Microsoft 7scenes；

图3是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所使用的室外数据集Cambridge Landmarks中各部分比重；

图4是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所提出方法的整体网络结构示意图；

图5为本发明一种基于图卷积网络的多场景单目相机位姿回归方法提出的模型在测试时的基本流程图；

图6为本发明一种基于图卷积网络的多场景单目相机位姿回归方法在模型评估时设置的网络结构。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

如图1所示，本发明提出的方法基于图卷积网络，结合多场景单模型有监督的训练方式，实验框架使用开源的深度学习库Pytorch。

具体包括以下步骤：

步骤1，对室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes进行数据预处理。具体实现方式为，使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整，本发明所使用的方法中，将图像分辨率调整到256*256，对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224，对测试数据集使用中心裁剪方式，分辨率同样为224*224，此外将图像矩阵转换为Pytorch框架中的Tensor数据类型，并对图像矩阵进行归一化操作。步骤1所做的工作是为了便于将图像放入到网络中进行特征提取，以及对图像进行常规的归一化操作，利于网络收敛。

本发明中使用到的数据集共有2类，包括室内数据集和室外数据集，所有图像均为单目相机拍摄，不包含其它参数。其中室内数据集Microsoft 7Scenes是一类，包括Fire，Chess，Office，Heads，Pumpkin，Red Kitchen，Stairs七个子数据集。室外数据集使用Cambridge Landmarks，包括ShopFacade，OldHospital，King’s College，St Mary’sChurch，GreatCourt五个子数据集。

所有的数据标注格式在本发明中都是统一的。使用(x,y,z)三元组标记位置偏移，(q₁,q₂,q₃,q₄)四元组表示旋转偏移。数据集具体介绍见下表和图2、图3。

本发明提出的方法使用的室外数据集Cambridge Landmarks如下表所示：

数据集名称	训练图像数量	测试图像数量
			ShopFacade	231	103
OldHospital	895	182
			King’s College	1220	343
St Mary’s Church	1487	530
			GreatCourt	1532	760

本发明提出的方法使用的室内数据集Microsoft 7scenes如下表所示：

数据集名称	训练图像数量	测试图像数量
			Fire	2000	2000
Chess	4000	2000
			Office	6000	4000
Heads	1000	1000
			Pumpkin	4000	2000
Red Kitchen	7000	5000
			Stairs	2000	1000

步骤2，使用ImageNet分类数据集预训练的EfficientNet-b0权重，进行网络权重初始化。将步骤1预处理后的图像，输入特征提取网络，定义特征提取网络的损失函数，配置网络的训练参数，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征，步骤2的具体操作如下：

步骤2.1，预处理后的图像在未传递到特征提取网络之前，是若干个分辨率为256*256的RGB图像，经步骤1的预处理操作之后，所有的训练和测试图像均为归一化的Tensor矩阵类型，且分辨率变为224*224。本发明所使用的特征提取网络，主干结构为EfficientNet-b0，使用ImageNet数据集上预训练的EfficientNet-b0网络权重，进行权重初始化操作；

步骤2.2，将分辨率为224*224的带标注训练集图像，放入特征提取网络中进行训练。特征提取网络的损失函数定义如下：

L_x(I_c0＝||x_n-x_pred||₂(1)

L_q(I_c0＝||q_n-q_pred||₂(2)

L_σ(I_c)＝L_x(I_c)*exp(-s_x)+s_x+L_q(I_c)*exp(-s_q)+s_q(3)

公式(3)中L_σ(I_c(为特征提取网络针对位姿回归任务的损失函数，I_c为任意一张训练或测试图像。公式(1)中L_x(I_c(是位置估计的损失函数，x_n为真实位置标注，x_pred为模型估计的位置，即L_x(I_c(是真实位置标注和模型估计位置的二范数。公式(2)中L_q(I_c(是旋转估计的损失函数，q_n为真实旋转标注，q_pred为模型估计的旋转，即L_q(I_c(是真实旋转标注和模型估计旋转的二范数。s_x和s_q是仅与位置和旋转估计任务相关的参数，其中和/>分别是在位置和旋转估计任务中学习到的参数。公式(4)为特征提取网络最终的损失函数。本发明所提出的方法为多场景位姿回归方法，所以特征提取网络的最终损失函数LOSS_{multi_scene}，是结合位姿回归任务和场景分类任务的双重损失函数。公式(4)中，L_σ(I_c(为位姿回归损失，s_{pred_i}为预测的场景索引分布，s_{true_i}为真实的场景标注，N为数据集包含场景数。

本发明中所提方法使用到的特征提取网络，训练参数如下：

参数名	参数值
		优化器(optimizer)	SGD
学习率(learning rate)	1e-4
		批处理大小(batch size)	8
训练次数(epoches)	1000
		输入图像分辨率(input size)	224x224
场景数(num_scenes)	12
		遗忘概率(dropout)	0.1

步骤2.3，如图4所示，记特征提取网络输出的特征矩阵为F_m，经过一个全连接层后，每个特征行向量的维度变为1024，此时特征矩阵记为F_reduce。权重数据库由12个不同权重的场景相关全连接层构成。F_reduce经过场景分类分支，首先预测每一张待查询图像最可能的场景索引分布，根据预测的场景索引，从权重数据库中选择场景索引对应的场景相关权重，最终预测得到待查询图像的位姿。经公式(4)中的位姿回归损失函数以及场景分类损失函数的约束，通过误差的反向传播，对不同的场景索引，训练不同的场景相关权重，模型收敛后得到12个1024*P的场景相关权重，放入权重数据库中，用于最终的多场景位姿回归，其中P为7，为预测位姿的维度。按照步骤2.2中训练参数表所述，训练特征提取网络直至收敛；

步骤2.4，将输入图像传递给步骤2.3中训练完成的特征提取网络，得到图像特征行向量X₁,X₂,…,X_N，数据类型为Tensor行向量，维度为1024。

步骤3，计算步骤2中图像特征行向量间的L₂距离，作为KNN算法实施的度量标准，使用KNN算法得到与当前特征向量最接近的K个向量，构建特征图谱，计算其邻接矩阵、度矩阵、特征矩阵以及标签矩阵，其具体步骤如下：

步骤3.1，计算图像特征行向量间的L₂距离，如公式(5)所示：

其中I_i和I_j分别为第i张和第j张图像，d(I_i,I_j)表示图像I_i和I_j的L₂距离，X_i,X_j为步骤2获取的图像特征行向量，x_im,x_jm为步骤2中图像特征行向量中元素，n为步骤2中图像特征行向量的行数；

步骤3.2，使用步骤3.1计算得到的L₂距离，作为KNN算法的度量标准，对于每个图像特征行向量，搜索最为接近的K个向量，作为当前特征向量的邻居。经多次实验验证，在本发明提出的方法中，将K设置为2，即每个图像特征行向量最终只含有2个邻居；

步骤3.3，根据步骤3.2中KNN算法执行的结果，将每个图像特征行向量视为特征图谱的一个特征结点，根据步骤3.2中计算得到的每个结点的邻居，建立特征结点的邻接关系，完成特征图谱的构建，训练和测试数据集分别为两个不同的特征图谱。计算特征图谱的邻接矩阵A、度矩阵D、标签矩阵L，以及特征矩阵F，作为图卷积网络的输入。设G＝(V,E)为一个图，其中V为结点集合，V＝{V₁,V₂,…,V_n}，E为边集合，E＝{(V₁,V₂),(V₂,V₃),…,(V_i,V_j)}。邻接矩阵、度矩阵、标签矩阵及特征矩阵的定义如下：

·邻接矩阵A是表示结点间相邻关系的矩阵。若结点V_i和V_j之间有边，则A[V_i][V_j]＝1；否则A[V_i][V_j]＝0。

·度矩阵D是一个对角阵，对角上的元素为各个结点的度。结点V_i的度表示和该结点相关联的边数。

·标签矩阵L为n*7的Tensor矩阵，其中n为特征结点数量，即数据集训练或测试图像数量，7是位姿真实标注的维度。

·特征矩阵F为n*1024的Tensor矩阵，F的每一行为步骤2中得到的图像特征行向量X，其中n为特征结点数量或数据集图像数量，1024为步骤2中输出的图像特征行向量的维度。

步骤4，将步骤3中计算得到的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F传入到4层图卷积网络中，然后在全连接层进行特征维度转换，最后传入位姿回归器，得到预测的相机位姿。使用图卷积网络作为步骤2中特征提取网络的优化学习方案，进一步提取图像特征间的隐藏信息。经过图卷积网络参数的调整优化，训练图卷积网络至收敛，其具体步骤如下：

步骤4.1，本发明方法中使用的图卷积操作为频域卷积，对于无向图而言，给定它的度矩阵D、邻接矩阵A和特征矩阵F，经过图卷积之后输出的特征矩阵F′，如公式(6)所示。

F′＝D^-0.5*A′*D^-0.5*F*θ (6)

其中F为步骤3.3中计算得到的特征矩阵，D是步骤3.3中计算得到的度矩阵，A为步骤3.3中计算得到的邻接矩阵，A′为邻接矩阵A和特征图谱结点自循环的相加。θ为图卷积网络的权重，是图卷积网络的待学习参数；

步骤4.2，特征矩阵在输入到图卷积网络之前，经过第1个图卷积层，特征维度由1024变为512，一共设置4个图卷积层，特征维度的变化依次为1024->512->256->128->64，最终经过全连接层，在传入位姿回归器之前，进行特征维度转变，将第4个图卷积层的输出维度，从64映射至512，此时输出的特征矩阵记为F_out。将F_out传入位姿回归器，预测得到待查询图像的位姿，经过公式(3)中所述的位姿回归损失函数的约束，误差进行反向传播，直至图卷积网络收敛。

步骤5，使用步骤1中所述的测试集图像来评估模型的位姿回归性能和泛化能力。测试集图像使用12个室内室外数据集中的测试图像，通过位姿回归性能评价指标和多组对比实验，评估模型是否达标。参考图5所示，其具体步骤如下。

步骤5.1，给定测试图像Q_i，首先通过特征提取网络，得到图像特征行向量X_i；

步骤5.2，对不同的测试图像重复步骤5.1过程，然后根据步骤2，3中所述的方法来构建特征图谱，得到测试所用的测试特征图谱G-eval，根据步骤3中所述，计算其邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F，经过4层图卷积操作，以及全连接层特征维度转换，最终经过位姿回归器，预测得到测试图像的相机位姿；

步骤5.3，本发明中所提的位姿回归方法，采用位置误差Error_t和旋转误差Error_r作为位姿回归的性能评价指标。

使用步骤1中所述的测试集图像评估性能，使用公式(7)和公式(8)所述的两个评价指标，作为位姿回归的性能评价标准，测试时模型的迭代次数为50，加权平均后作为本方法的最终位姿回归性能评价结果；

步骤5.4，为了评估多场景单模型方法的模型泛化能力，设置多组对比实验，使用与本发明中所提特征提取网络结构一致的EfficientNet-b0主干网络，作为本次对比实验的网络结构。一共设置5组对比实验，使用不同权重初始化的EfficientNet-b0网络，评估本发明所提出的多场景单模型方法的泛化能力。对比实验网络结构详细介绍参见图6，实验配置如下：

1.ImageNet预训练EfficientNet，Cambridge Landmarks数据集验证。

2.MS-EfficientNet做权重初始化，Cambridge Landmarks数据集验证。

3.MS-EfficientNet做权重初始化，7Scenes数据集验证。

4.Cambridge Landmarks微调的EffcientNet，7Scenes数据集验证。

5.7Scenes微调的EffcientNet，Cambridge Landmarks数据集验证。

步骤5.5，结合步骤5.3中性能评价以及步骤5.4中的泛化能力评价，最终判断模型是否合格。如合格，则停止迭代，得到多场景的位姿回归模型。否则重复步骤2-5，训练特征提取网络和图卷积网络，直至模型合格。

Claims

1.一种基于图卷积网络的多场景单目相机位姿回归方法，包括以下步骤：

所述步骤2具体使用ImageNet分类数据集预训练的EfficientNet-b0权重，进行网络权重初始化；将步骤1预处理后的图像，输入特征提取网络，定义特征提取网络的损失函数，配置网络的训练参数，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征；

所述步骤2的具体步骤如下：

所述步骤2.2特征提取网络的损失函数定义如下：

(1)

(2)

(3)

(4)

式中为特征提取网络针对位姿回归任务的损失函数，/>为任意一张训练或测试图像；/>是位置估计的损失函数，/>为真实位置标注，/>为模型估计的位置，即是真实位置标注和模型估计位置的二范数；/>是旋转估计的损失函数，/>为真实旋转标注，/>为模型估计的旋转，即/>是真实旋转标注和模型估计旋转的二范数；/>和/>是仅与位置和旋转估计任务相关的参数，其中/>，/>；和/>分别是在位置和旋转估计任务中学习到的参数；/>为特征提取网络最终的损失函数；/>为预测的场景索引分布，/>为真实的场景标注，N为数据集包含场景数；

步骤2.3，将分辨率大小为224*224的带标注训练图像，输入到特征提取网络，将特征提取网络输出的特征矩阵，输入到全连接层，进行特征维度转变，然后经过场景分类分支，预测训练图像最可能的场景索引，根据预测的索引从权重数据库选择相应的权重，最终预测得到训练图像相机位姿；经损失函数的约束，网络参数优化调整，训练直至特征提取网络收敛；

步骤2.4，使用步骤2.3中训练完成的特征提取网络，获取输入图像的图像特征，用于特征图谱的构建；

根据KNN算法执行的结果，将每个图像特征行向量视为特征图谱的一个特征结点，根据计算得到的每个结点的邻居，建立特征结点的邻接关系，完成特征图谱的构建，训练和测试数据集分别为两个不同的特征图谱；计算特征图谱的邻接矩阵A、度矩阵D、标签矩阵L，以及特征矩阵F，作为图卷积网络的输入；

邻接矩阵、度矩阵、标签矩阵及特征矩阵的定义如下：

邻接矩阵A是表示结点间相邻关系的矩阵；

度矩阵D是一个对角阵，对角上的元素为各个结点的度；结点的度表示和该结点相关联的边数；

标签矩阵L为n*7的Tensor矩阵，其中n为特征结点数量，即数据集训练或测试图像数量，7是位姿真实标注的维度；

特征矩阵F为n*1024的Tensor矩阵，F的每一行为步骤2中得到的图像特征行向量，1024为步骤2中输出的图像特征行向量的维度；

所述步骤4中，利用图卷积网络作为步骤2特征提取网络的优化方案，更深层次的提取图像特征之间的隐藏信息，进一步优化了基于CNN卷积网络的多场景位姿回归性能；其具体步骤如下：

步骤4.1，采用频域卷积作为图卷积的实施方法，将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵，输入到图卷积网络中；

步骤4.2，经过4个图卷积层和1个全连接层，进行维度转换，最后到位姿回归器，预测输入特征图谱对应的位姿，图卷积网络在步骤2的损失函数的约束下，反向传播误差，调整网络参数，训练图卷积网络直至网络收敛；

步骤5，采用位置误差和旋转误差作为位姿回归性能评价指标，设置多组对比实验来评估模型泛化能力，根据最终评估结果，决定模型是否重新迭代。

2.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤1中，多场景数据集包括室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes。

3.根据权利要求2所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤1具体实现方式为：

4.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤4.1中频域卷积的公式具体为：

(6)

其中F为步骤3中计算得到的特征矩阵，D是步骤3中计算得到的度矩阵，A为步骤3中计算得到的邻接矩阵，为邻接矩阵A和特征图谱结点自循环的相加；/>为图卷积网络的权重，是图卷积网络的待学习参数。

5.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤5中，使用步骤1预处理后的测试图像集，进行模型评估；设置性能评价和泛化能力评估两个评估方案，得到模型最终的评估结果，其具体步骤如下：

步骤5.1，给定预处理后的测试图像Q _i，放入特征提取网络进行特征提取，得到图像特征行向量X _i；

步骤5.3，根据步骤1预处理后的测试图像集，使用位置误差和旋转误差，作为位姿回归的性能评价指标，在迭代50次后取位置误差和旋转误差的中位数，得到最终的位姿回归性能指标；

步骤5.4，为了评估模型的泛化能力，设置多组对比实验，使用特征提取网络结构EffcientNet-b0，根据对比实验配置，使用不同权重初始化的Efficientnet-b0，评估模型在不同数据集上的泛化能力；

步骤5.5，结合步骤5.3中位姿回归性能评价以及步骤5.4中的模型泛化能力评估，给出模型最终评估结果；如模型合格，则得到最终的多场景位姿回归模型：否则重复步骤2-5，直至模型合格。

6.根据权利要求5所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤5.3中，位置误差和旋转误差的具体计算方法为：

(7)

(8)

式中，为模型输出的待查询图像的预测位置，/>为待查询图像的真实位置标注，位置误差/>，表示真实位置和预测位置的差值的绝对值；旋转误差/>，表示真实旋转和预测旋转之间的角度差的绝对值，其中/>为模型输出的待图像的预测旋转，为该图像对应的真实旋转标注。