CN113724325B - 一种基于图卷积网络的多场景单目相机位姿回归方法 - Google Patents
一种基于图卷积网络的多场景单目相机位姿回归方法 Download PDFInfo
- Publication number
- CN113724325B CN113724325B CN202110602225.4A CN202110602225A CN113724325B CN 113724325 B CN113724325 B CN 113724325B CN 202110602225 A CN202110602225 A CN 202110602225A CN 113724325 B CN113724325 B CN 113724325B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- matrix
- feature
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000005096 rolling process Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 106
- 238000012360 testing method Methods 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 26
- 238000002474 experimental method Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000007480 spreading Effects 0.000 claims description 2
- 238000003892 spreading Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 2
- 238000004880 explosion Methods 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 235000000832 Ayote Nutrition 0.000 description 2
- 235000009854 Cucurbita moschata Nutrition 0.000 description 2
- 240000001980 Cucurbita pepo Species 0.000 description 2
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000015136 pumpkin Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图卷积网络的多场景单目相机位姿回归方法。首先训练一个多场景的特征提取网络用于位姿回归。然后借助图卷积,优化学习图像特征间的隐藏信息。使用训练完成的特征提取网络得到图像特征,将图像特征构建特征图谱,作为图卷积网络的输入,回归得到优化后的相机位姿。本发明提出的方法结合了多场景单模型训练方式、图像特征构图及图卷积网络,增强了模型泛化能力,提高了位姿回归性能,改善了多场景模型训练时的参数爆炸问题。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于图卷积网络的多场景单目相机位姿回归方法。
背景技术
近年来,机器人和无人机领域面临着一个待解决的问题,如何在陌生环境中定位自己所在位置,即自身的定位工作。相机位姿回归,是一项几何和视觉相结合的任务,在同步定位与建图(simultaneous localization and mapping,SLAM)中是一个很重要的组成部分,过去几十年间受到了计算机视觉领域和机器人领域的广泛关注。单目相机位姿回归,就是一种极端的子情况,在不使用其他辅助信息的条件下,只利用相机自身的参数,来估计相机的位姿。目前,已有很多机器人的定位系统以及惯性导航系统中,使用了相机位姿回归方法来辅助定位。
传统的单目位姿回归方法如ORB-SLAM、VINS-mono等在现实应用中已经可以达到很高的精度,但传统方法,如SIFT、ORB,特征提取时鲁棒性较弱,该类方法在陌生环境中或是特征变化较大的环境下,定位性能较差。近些年,由于卷积神经网络(ConvolutionalNeural Networks,CNN)强大的特征提取能力,在计算机视觉任务中,如图像分类、图像分割、目标检测、目标识别等,经常会用到CNN结构来提取视觉特征。此外,也有很多研究工作者使用CNN来解决位姿回归问题,但是由于相机位姿更多的偏向于几何信息,而不是视觉语义信息,单纯使用CNN模型,泛化能力较弱,模型训练时容易出现过拟合,对于陌生环境,亦容易失去定位的准确度。此外,传统基于CNN的相机位姿回归方法,忽视了各图像之间的位姿关联性。有些研究工作中,使用相对位姿建模来回归图像帧之间包含的位姿信息,但是这种方法在相对位姿回归任务中增加了网络训练的难度,且最终是否有益于整体的位姿回归,并不具备良好的解释性。
图卷积神经网络(Graph Convolutional Network,GCN),作为图神经网络的一种,通过图结点之间隐藏信息的更迭,使整个图卷积网络得到收敛,从而更好地提取相邻结点之间包含的信息。此外,单模型多场景同时训练,又可以很大程度地增加模型的泛化能力,解决单场景遗留的模型泛化能力不足的问题,同时也改善了多场景训练参数爆炸的问题。
发明内容
本发明的目的是提供一种基于图卷积网络的多场景单目相机位姿回归方法,以解决现有技术中存在的单场景方法面临的模型泛化能力不足,以及不能有效地提取图像帧间关联信息的问题。对于待查询图像,首先训练一个多场景的特征提取网络用于位姿回归。然后借助图卷积,优化学习图像特征间的隐藏信息。使用训练完成的特征提取网络得到图像特征,将图像特征构建特征图谱,作为图卷积网络的输入,回归得到优化后的相机位姿。本发明提出的方法结合了多场景单模型训练方式、图像特征构图及图卷积网络,增强了模型泛化能力,提高了位姿回归性能,改善了多场景模型训练时的参数爆炸问题。
本发明所提出的技术方案是,一种基于图卷积网络的多场景单目相机位姿回归方法,具体包括以下步骤:
步骤1,对多场景数据集图像进行预处理操作,包括图像分辨率重调、随机裁剪、归一化、中心裁剪、转换成Tensor数据类型操作;
步骤2,将步骤1预处理后的图像,输入特征提取网络,离线训练直至网络收敛,得到训练完成的特征提取网络,使用其提取图像特征;
步骤3,使用步骤2中特征提取网络得到的图像特征,构建特征图谱,计算特征图谱对应的邻接矩阵、度矩阵、标签矩阵及特征矩阵;
步骤4,将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵,放入图卷积网络中,训练图卷积网络直至收敛;
步骤5,采用位置误差和旋转误差作为本发明所提方法的位姿回归性能评价指标,设置多组对比实验来评估模型泛化能力,根据最终评估结果,决定模型是否重新迭代。
步骤1中,多场景数据集包括室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes。
步骤1具体实现方式为:
使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整,将图像分辨率调整到256*256,对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224,对测试数据集使用中心裁剪方式,分辨率同样为224*224,此外将图像矩阵转换为Pytorch框架中的Tensor数据类型,并对图像矩阵进行归一化操作。
步骤2具体使用ImageNet分类数据集预训练的EfficientNet-b0权重,进行网络权重初始化。将步骤1预处理后的图像,输入特征提取网络,定义特征提取网络的损失函数,配置网络的训练参数,离线训练直至网络收敛,得到训练完成的特征提取网络,使用其提取图像特征。
步骤2的具体步骤如下:
步骤2.1,将步骤1中预处理后的图像,作为特征提取网络的输入,输入图像的尺寸调整为224*224,使用ImageNet预训练的EfficientNet-b0权重对特征提取网络进行权重初始化;
步骤2.2,将分辨率为224*224的带标注训练集图像,放入特征提取网络中进行训练;
步骤2.3,将分辨率大小为224*224的带标注训练图像,输入到特征提取网络,将特征提取网络输出的特征矩阵,输入到全连接层,进行特征维度转变,然后经过场景分类分支,预测训练图像最可能的场景索引,根据预测的索引从权重数据库选择相应的权重,最终预测得到训练图像相机位姿。经损失函数的约束,网络参数优化调整,训练直至特征提取网络收敛;
步骤2.4,使用步骤2.3中训练完成的特征提取网络,获取输入图像的图像特征,用于特征图谱的构建。
步骤2.2特征提取网络的损失函数定义如下:
Lx(Ic)=||xn-xpred||2(1)
Lq(Ic)=||qn-qpred||2(2)
Lσ(Ic)=Lx(Ic)*exp(-sx)+sx+Lq(Ic)*exp(-sq)+sq(3)
式中Lσ(Ic(为特征提取网络针对位姿回归任务的损失函数,Ic为任意一张训练或测试图像;Lx(Ic(是位置估计的损失函数,xn为真实位置标注,xpred为模型估计的位置,即Lx(Ic(是真实位置标注和模型估计位置的二范数;Lq(Ic(是旋转估计的损失函数,qn为真实旋转标注,qpred为模型估计的旋转,即Lq(Ic(是真实旋转标注和模型估计旋转的二范数。sx和sq是仅与位置和旋转估计任务相关的参数,其中 和/>分别是在位置和旋转估计任务中学习到的参数;式中特征提取网络最终的损失函数;Lσ(Ic(为位姿回归损失,spred_i为预测的场景索引分布,strue_i为真实的场景标注,N为数据集包含场景数。
步骤4中,利用图卷积网络作为步骤2特征提取网络的有优化方案,更深层次的提取图像特征之间的隐藏信息,进一步优化了基于CNN卷积网络的多场景位姿回归性能。其具体步骤如下:
步骤4.1,采用频域卷积作为本发明中图卷积的实施方法,将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵,输入到图卷积网络中;
步骤4.2,经过4个图卷积层和1个全连接层,进行维度转换,最后到位姿回归器,预测输入特征图谱对应的位姿,图卷积网络在步骤2的损失函数的约束下,反向传播误差,调整网络参数,训练图卷积网络直至网络收敛。
步骤4.1中频域卷积的公式具体为:
F′=D-0.5*A′*D-0.5*F*θ (6)
其中F为步骤3.3中计算得到的特征矩阵,D是步骤3.3中计算得到的度矩阵,A为步骤3.3中计算得到的邻接矩阵,A′为邻接矩阵A和特征图谱结点自循环的相加;θ为图卷积网络的权重,是图卷积网络的待学习参数。
步骤5中,使用步骤1所述的测试图像集,进行模型评估。设置性能评价和泛化能力评估两个评估方案,得到模型最终的评估结果,其具体步骤如下:
步骤5.1,给定预处理后的测试图像Qi,放入特征提取网络进行特征提取,得到图像特征行向量Xi;
步骤5.2,重复步骤5.1,得到所有测试图像的特征向量,将其构建特征图谱,并计算它的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F,作为图卷积网络的输入;
步骤5.3,根据步骤1所述的测试数据集,使用位置误差和旋转误差,作为位姿回归的性能评价指标,在迭代50次后取位置误差和旋转误差的中位数,得到最终的位姿回归性能指标。
步骤5.4,为了评估模型的泛化能力,设置多组对比实验,使用跟本发明所提方法完全一致的特征提取网络结构EffcientNet-b0,根据对比实验配置,使用不同权重初始化的Efficientnet-b0,评估模型在不同数据集上的泛化能力。
步骤5.5,结合步骤5.3中位姿回归性能评价以及步骤5.4中的模型泛化能力评估,给出模型最终评估结果。如模型合格,则得到最终的多场景位姿回归模型:否则重复步骤2-5,直至模型合格。
步骤5.3中,位置误差和旋转误差的具体计算方法为:
Errort=||Tpred-Ttrue||2 (7)
式中,Tpred为模型输出的待查询图像的预测位置,Ttrue为待查询图像的真实位置标注,表示真实位置和预测位置的差值的绝对值。位置误差表示真实旋转和预测旋转之间的角度差的绝对值,其中Rpred为模型输出的待图像的预测旋转,Rtrue为该图像对应的真实旋转标注。
本发明的有益效果为:
1)本发明方法提出一种基于图卷积网络的多场景单目相机位姿回归方法。结合图卷积网络、传统卷积神经网络以及多场景单模型训练方式,改善了多场景模型训练带来的参数爆炸问题,提高了模型的泛化能力;
2)本发明方法利用图卷积来学习图像特征之间的隐藏信息,作为CNN特征提取网络的后期优化,利用CNN强大的特征提取能力,结合二者的优势,有效提取图像特征间的几何信息,提升了位姿回归的性能;
3)本发明方法采用多场景单模型训练机制,训练时考虑场景因素,在应对陌生未知环境时,可作为现实应用场景的位姿回归模型权重初始化方法。
附图说明
图1是本发明一种基于图卷积网络的多场景单目相机位姿回归方法整体流程图;
图2是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所使用的室内数据集Microsoft 7scenes;
图3是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所使用的室外数据集Cambridge Landmarks中各部分比重;
图4是本发明一种基于图卷积网络的多场景单目相机位姿回归方法所提出方法的整体网络结构示意图;
图5为本发明一种基于图卷积网络的多场景单目相机位姿回归方法提出的模型在测试时的基本流程图;
图6为本发明一种基于图卷积网络的多场景单目相机位姿回归方法在模型评估时设置的网络结构。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
如图1所示,本发明提出的方法基于图卷积网络,结合多场景单模型有监督的训练方式,实验框架使用开源的深度学习库Pytorch。
具体包括以下步骤:
步骤1,对室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes进行数据预处理。具体实现方式为,使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整,本发明所使用的方法中,将图像分辨率调整到256*256,对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224,对测试数据集使用中心裁剪方式,分辨率同样为224*224,此外将图像矩阵转换为Pytorch框架中的Tensor数据类型,并对图像矩阵进行归一化操作。步骤1所做的工作是为了便于将图像放入到网络中进行特征提取,以及对图像进行常规的归一化操作,利于网络收敛。
本发明中使用到的数据集共有2类,包括室内数据集和室外数据集,所有图像均为单目相机拍摄,不包含其它参数。其中室内数据集Microsoft 7Scenes是一类,包括Fire,Chess,Office,Heads,Pumpkin,Red Kitchen,Stairs七个子数据集。室外数据集使用Cambridge Landmarks,包括ShopFacade,OldHospital,King’s College,St Mary’sChurch,GreatCourt五个子数据集。
所有的数据标注格式在本发明中都是统一的。使用(x,y,z)三元组标记位置偏移,(q1,q2,q3,q4)四元组表示旋转偏移。数据集具体介绍见下表和图2、图3。
本发明提出的方法使用的室外数据集Cambridge Landmarks如下表所示:
数据集名称 | 训练图像数量 | 测试图像数量 |
ShopFacade | 231 | 103 |
OldHospital | 895 | 182 |
King’s College | 1220 | 343 |
St Mary’s Church | 1487 | 530 |
GreatCourt | 1532 | 760 |
本发明提出的方法使用的室内数据集Microsoft 7scenes如下表所示:
数据集名称 | 训练图像数量 | 测试图像数量 |
Fire | 2000 | 2000 |
Chess | 4000 | 2000 |
Office | 6000 | 4000 |
Heads | 1000 | 1000 |
Pumpkin | 4000 | 2000 |
Red Kitchen | 7000 | 5000 |
Stairs | 2000 | 1000 |
步骤2,使用ImageNet分类数据集预训练的EfficientNet-b0权重,进行网络权重初始化。将步骤1预处理后的图像,输入特征提取网络,定义特征提取网络的损失函数,配置网络的训练参数,离线训练直至网络收敛,得到训练完成的特征提取网络,使用其提取图像特征,步骤2的具体操作如下:
步骤2.1,预处理后的图像在未传递到特征提取网络之前,是若干个分辨率为256*256的RGB图像,经步骤1的预处理操作之后,所有的训练和测试图像均为归一化的Tensor矩阵类型,且分辨率变为224*224。本发明所使用的特征提取网络,主干结构为EfficientNet-b0,使用ImageNet数据集上预训练的EfficientNet-b0网络权重,进行权重初始化操作;
步骤2.2,将分辨率为224*224的带标注训练集图像,放入特征提取网络中进行训练。特征提取网络的损失函数定义如下:
Lx(Ic0=||xn-xpred||2(1)
Lq(Ic0=||qn-qpred||2(2)
Lσ(Ic)=Lx(Ic)*exp(-sx)+sx+Lq(Ic)*exp(-sq)+sq(3)
公式(3)中Lσ(Ic(为特征提取网络针对位姿回归任务的损失函数,Ic为任意一张训练或测试图像。公式(1)中Lx(Ic(是位置估计的损失函数,xn为真实位置标注,xpred为模型估计的位置,即Lx(Ic(是真实位置标注和模型估计位置的二范数。公式(2)中Lq(Ic(是旋转估计的损失函数,qn为真实旋转标注,qpred为模型估计的旋转,即Lq(Ic(是真实旋转标注和模型估计旋转的二范数。sx和sq是仅与位置和旋转估计任务相关的参数,其中 和/>分别是在位置和旋转估计任务中学习到的参数。公式(4)为特征提取网络最终的损失函数。本发明所提出的方法为多场景位姿回归方法,所以特征提取网络的最终损失函数LOSSmulti_scene,是结合位姿回归任务和场景分类任务的双重损失函数。公式(4)中,Lσ(Ic(为位姿回归损失,spred_i为预测的场景索引分布,strue_i为真实的场景标注,N为数据集包含场景数。
本发明中所提方法使用到的特征提取网络,训练参数如下:
参数名 | 参数值 |
优化器(optimizer) | SGD |
学习率(learning rate) | 1e-4 |
批处理大小(batch size) | 8 |
训练次数(epoches) | 1000 |
输入图像分辨率(input size) | 224x224 |
场景数(num_scenes) | 12 |
遗忘概率(dropout) | 0.1 |
步骤2.3,如图4所示,记特征提取网络输出的特征矩阵为Fm,经过一个全连接层后,每个特征行向量的维度变为1024,此时特征矩阵记为Freduce。权重数据库由12个不同权重的场景相关全连接层构成。Freduce经过场景分类分支,首先预测每一张待查询图像最可能的场景索引分布,根据预测的场景索引,从权重数据库中选择场景索引对应的场景相关权重,最终预测得到待查询图像的位姿。经公式(4)中的位姿回归损失函数以及场景分类损失函数的约束,通过误差的反向传播,对不同的场景索引,训练不同的场景相关权重,模型收敛后得到12个1024*P的场景相关权重,放入权重数据库中,用于最终的多场景位姿回归,其中P为7,为预测位姿的维度。按照步骤2.2中训练参数表所述,训练特征提取网络直至收敛;
步骤2.4,将输入图像传递给步骤2.3中训练完成的特征提取网络,得到图像特征行向量X1,X2,…,XN,数据类型为Tensor行向量,维度为1024。
步骤3,计算步骤2中图像特征行向量间的L2距离,作为KNN算法实施的度量标准,使用KNN算法得到与当前特征向量最接近的K个向量,构建特征图谱,计算其邻接矩阵、度矩阵、特征矩阵以及标签矩阵,其具体步骤如下:
步骤3.1,计算图像特征行向量间的L2距离,如公式(5)所示:
其中Ii和Ij分别为第i张和第j张图像,d(Ii,Ij)表示图像Ii和Ij的L2距离,Xi,Xj为步骤2获取的图像特征行向量,xim,xjm为步骤2中图像特征行向量中元素,n为步骤2中图像特征行向量的行数;
步骤3.2,使用步骤3.1计算得到的L2距离,作为KNN算法的度量标准,对于每个图像特征行向量,搜索最为接近的K个向量,作为当前特征向量的邻居。经多次实验验证,在本发明提出的方法中,将K设置为2,即每个图像特征行向量最终只含有2个邻居;
步骤3.3,根据步骤3.2中KNN算法执行的结果,将每个图像特征行向量视为特征图谱的一个特征结点,根据步骤3.2中计算得到的每个结点的邻居,建立特征结点的邻接关系,完成特征图谱的构建,训练和测试数据集分别为两个不同的特征图谱。计算特征图谱的邻接矩阵A、度矩阵D、标签矩阵L,以及特征矩阵F,作为图卷积网络的输入。设G=(V,E)为一个图,其中V为结点集合,V={V1,V2,…,Vn},E为边集合,E={(V1,V2),(V2,V3),…,(Vi,Vj)}。邻接矩阵、度矩阵、标签矩阵及特征矩阵的定义如下:
·邻接矩阵A是表示结点间相邻关系的矩阵。若结点Vi和Vj之间有边,则A[Vi][Vj]=1;否则A[Vi][Vj]=0。
·度矩阵D是一个对角阵,对角上的元素为各个结点的度。结点Vi的度表示和该结点相关联的边数。
·标签矩阵L为n*7的Tensor矩阵,其中n为特征结点数量,即数据集训练或测试图像数量,7是位姿真实标注的维度。
·特征矩阵F为n*1024的Tensor矩阵,F的每一行为步骤2中得到的图像特征行向量X,其中n为特征结点数量或数据集图像数量,1024为步骤2中输出的图像特征行向量的维度。
步骤4,将步骤3中计算得到的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F传入到4层图卷积网络中,然后在全连接层进行特征维度转换,最后传入位姿回归器,得到预测的相机位姿。使用图卷积网络作为步骤2中特征提取网络的优化学习方案,进一步提取图像特征间的隐藏信息。经过图卷积网络参数的调整优化,训练图卷积网络至收敛,其具体步骤如下:
步骤4.1,本发明方法中使用的图卷积操作为频域卷积,对于无向图而言,给定它的度矩阵D、邻接矩阵A和特征矩阵F,经过图卷积之后输出的特征矩阵F′,如公式(6)所示。
F′=D-0.5*A′*D-0.5*F*θ (6)
其中F为步骤3.3中计算得到的特征矩阵,D是步骤3.3中计算得到的度矩阵,A为步骤3.3中计算得到的邻接矩阵,A′为邻接矩阵A和特征图谱结点自循环的相加。θ为图卷积网络的权重,是图卷积网络的待学习参数;
步骤4.2,特征矩阵在输入到图卷积网络之前,经过第1个图卷积层,特征维度由1024变为512,一共设置4个图卷积层,特征维度的变化依次为1024->512->256->128->64,最终经过全连接层,在传入位姿回归器之前,进行特征维度转变,将第4个图卷积层的输出维度,从64映射至512,此时输出的特征矩阵记为F_out。将F_out传入位姿回归器,预测得到待查询图像的位姿,经过公式(3)中所述的位姿回归损失函数的约束,误差进行反向传播,直至图卷积网络收敛。
步骤5,使用步骤1中所述的测试集图像来评估模型的位姿回归性能和泛化能力。测试集图像使用12个室内室外数据集中的测试图像,通过位姿回归性能评价指标和多组对比实验,评估模型是否达标。参考图5所示,其具体步骤如下。
步骤5.1,给定测试图像Qi,首先通过特征提取网络,得到图像特征行向量Xi;
步骤5.2,对不同的测试图像重复步骤5.1过程,然后根据步骤2,3中所述的方法来构建特征图谱,得到测试所用的测试特征图谱G-eval,根据步骤3中所述,计算其邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F,经过4层图卷积操作,以及全连接层特征维度转换,最终经过位姿回归器,预测得到测试图像的相机位姿;
步骤5.3,本发明中所提的位姿回归方法,采用位置误差Errort和旋转误差Errorr作为位姿回归的性能评价指标。
使用步骤1中所述的测试集图像评估性能,使用公式(7)和公式(8)所述的两个评价指标,作为位姿回归的性能评价标准,测试时模型的迭代次数为50,加权平均后作为本方法的最终位姿回归性能评价结果;
步骤5.4,为了评估多场景单模型方法的模型泛化能力,设置多组对比实验,使用与本发明中所提特征提取网络结构一致的EfficientNet-b0主干网络,作为本次对比实验的网络结构。一共设置5组对比实验,使用不同权重初始化的EfficientNet-b0网络,评估本发明所提出的多场景单模型方法的泛化能力。对比实验网络结构详细介绍参见图6,实验配置如下:
1.ImageNet预训练EfficientNet,Cambridge Landmarks数据集验证。
2.MS-EfficientNet做权重初始化,Cambridge Landmarks数据集验证。
3.MS-EfficientNet做权重初始化,7Scenes数据集验证。
4.Cambridge Landmarks微调的EffcientNet,7Scenes数据集验证。
5.7Scenes微调的EffcientNet,Cambridge Landmarks数据集验证。
步骤5.5,结合步骤5.3中性能评价以及步骤5.4中的泛化能力评价,最终判断模型是否合格。如合格,则停止迭代,得到多场景的位姿回归模型。否则重复步骤2-5,训练特征提取网络和图卷积网络,直至模型合格。
Claims (6)
1.一种基于图卷积网络的多场景单目相机位姿回归方法,包括以下步骤:
步骤1,对多场景数据集图像进行预处理操作,包括图像分辨率重调、随机裁剪、归一化、中心裁剪、转换成Tensor数据类型操作;
步骤2,将步骤1预处理后的图像,输入特征提取网络,离线训练直至网络收敛,得到训练完成的特征提取网络,使用其提取图像特征;
所述步骤2具体使用ImageNet分类数据集预训练的EfficientNet-b0权重,进行网络权重初始化;将步骤1预处理后的图像,输入特征提取网络,定义特征提取网络的损失函数,配置网络的训练参数,离线训练直至网络收敛,得到训练完成的特征提取网络,使用其提取图像特征;
所述步骤2的具体步骤如下:
步骤2.1,将步骤1中预处理后的图像,作为特征提取网络的输入,输入图像的尺寸调整为224*224,使用ImageNet预训练的EfficientNet-b0权重对特征提取网络进行权重初始化;
步骤2.2,将分辨率为224*224的带标注训练集图像,放入特征提取网络中进行训练;
所述步骤2.2特征提取网络的损失函数定义如下:
(1)
(2)
(3)
(4)
式中为特征提取网络针对位姿回归任务的损失函数,/>为任意一张训练或测试图像;/>是位置估计的损失函数,/>为真实位置标注,/>为模型估计的位置,即是真实位置标注和模型估计位置的二范数;/>是旋转估计的损失函数,/>为真实旋转标注,/>为模型估计的旋转,即/>是真实旋转标注和模型估计旋转的二范数;/>和/>是仅与位置和旋转估计任务相关的参数,其中/>,/>;和/>分别是在位置和旋转估计任务中学习到的参数;/>为特征提取网络最终的损失函数;/>为预测的场景索引分布,/>为真实的场景标注,N为数据集包含场景数;
步骤2.3,将分辨率大小为224*224的带标注训练图像,输入到特征提取网络,将特征提取网络输出的特征矩阵,输入到全连接层,进行特征维度转变,然后经过场景分类分支,预测训练图像最可能的场景索引,根据预测的索引从权重数据库选择相应的权重,最终预测得到训练图像相机位姿;经损失函数的约束,网络参数优化调整,训练直至特征提取网络收敛;
步骤2.4,使用步骤2.3中训练完成的特征提取网络,获取输入图像的图像特征,用于特征图谱的构建;
步骤3,使用步骤2中特征提取网络得到的图像特征,构建特征图谱,计算特征图谱对应的邻接矩阵、度矩阵、标签矩阵及特征矩阵;
根据KNN算法执行的结果,将每个图像特征行向量视为特征图谱的一个特征结点,根据计算得到的每个结点的邻居,建立特征结点的邻接关系,完成特征图谱的构建,训练和测试数据集分别为两个不同的特征图谱;计算特征图谱的邻接矩阵A、度矩阵D、标签矩阵L,以及特征矩阵F,作为图卷积网络的输入;
邻接矩阵、度矩阵、标签矩阵及特征矩阵的定义如下:
邻接矩阵A是表示结点间相邻关系的矩阵;
度矩阵D是一个对角阵,对角上的元素为各个结点的度;结点的度表示和该结点相关联的边数;
标签矩阵L为n*7的Tensor矩阵,其中n为特征结点数量,即数据集训练或测试图像数量,7是位姿真实标注的维度;
特征矩阵F为n*1024的Tensor矩阵,F的每一行为步骤2中得到的图像特征行向量,1024为步骤2中输出的图像特征行向量的维度;
步骤4,将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵,放入图卷积网络中,训练图卷积网络直至收敛;
所述步骤4中,利用图卷积网络作为步骤2特征提取网络的优化方案,更深层次的提取图像特征之间的隐藏信息,进一步优化了基于CNN卷积网络的多场景位姿回归性能;其具体步骤如下:
步骤4.1,采用频域卷积作为图卷积的实施方法,将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵,输入到图卷积网络中;
步骤4.2,经过4个图卷积层和1个全连接层,进行维度转换,最后到位姿回归器,预测输入特征图谱对应的位姿,图卷积网络在步骤2的损失函数的约束下,反向传播误差,调整网络参数,训练图卷积网络直至网络收敛;
步骤5,采用位置误差和旋转误差作为位姿回归性能评价指标,设置多组对比实验来评估模型泛化能力,根据最终评估结果,决定模型是否重新迭代。
2.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法,其特征在于:所述步骤1中,多场景数据集包括室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes。
3.根据权利要求2所述的一种基于图卷积网络的多场景单目相机位姿回归方法,其特征在于:所述步骤1具体实现方式为:
使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整,将图像分辨率调整到256*256,对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224,对测试数据集使用中心裁剪方式,分辨率同样为224*224,此外将图像矩阵转换为Pytorch框架中的Tensor数据类型,并对图像矩阵进行归一化操作。
4.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法,其特征在于:所述步骤4.1中频域卷积的公式具体为:
(6)
其中F为步骤3中计算得到的特征矩阵,D是步骤3中计算得到的度矩阵,A为步骤3中计算得到的邻接矩阵,为邻接矩阵A和特征图谱结点自循环的相加;/>为图卷积网络的权重,是图卷积网络的待学习参数。
5.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法,其特征在于:所述步骤5中,使用步骤1预处理后的测试图像集,进行模型评估;设置性能评价和泛化能力评估两个评估方案,得到模型最终的评估结果,其具体步骤如下:
步骤5.1,给定预处理后的测试图像Q i,放入特征提取网络进行特征提取,得到图像特征行向量X i;
步骤5.2,重复步骤5.1,得到所有测试图像的特征向量,将其构建特征图谱,并计算它的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F,作为图卷积网络的输入;
步骤5.3,根据步骤1预处理后的测试图像集,使用位置误差和旋转误差,作为位姿回归的性能评价指标,在迭代50次后取位置误差和旋转误差的中位数,得到最终的位姿回归性能指标;
步骤5.4,为了评估模型的泛化能力,设置多组对比实验,使用特征提取网络结构EffcientNet-b0,根据对比实验配置,使用不同权重初始化的Efficientnet-b0,评估模型在不同数据集上的泛化能力;
步骤5.5,结合步骤5.3中位姿回归性能评价以及步骤5.4中的模型泛化能力评估,给出模型最终评估结果;如模型合格,则得到最终的多场景位姿回归模型:否则重复步骤2-5,直至模型合格。
6.根据权利要求5所述的一种基于图卷积网络的多场景单目相机位姿回归方法,其特征在于:所述步骤5.3中,位置误差和旋转误差的具体计算方法为:
(7)
(8)
式中,为模型输出的待查询图像的预测位置,/>为待查询图像的真实位置标注,位置误差/>,表示真实位置和预测位置的差值的绝对值;旋转误差/>,表示真实旋转和预测旋转之间的角度差的绝对值,其中/>为模型输出的待图像的预测旋转,为该图像对应的真实旋转标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602225.4A CN113724325B (zh) | 2021-05-31 | 2021-05-31 | 一种基于图卷积网络的多场景单目相机位姿回归方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602225.4A CN113724325B (zh) | 2021-05-31 | 2021-05-31 | 一种基于图卷积网络的多场景单目相机位姿回归方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724325A CN113724325A (zh) | 2021-11-30 |
CN113724325B true CN113724325B (zh) | 2024-05-28 |
Family
ID=78672836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110602225.4A Active CN113724325B (zh) | 2021-05-31 | 2021-05-31 | 一种基于图卷积网络的多场景单目相机位姿回归方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724325B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168783A (zh) * | 2021-12-03 | 2022-03-11 | 北京航空航天大学 | 基于记忆库机制的多场景位姿回归方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127557A (zh) * | 2019-12-13 | 2020-05-08 | 中国电子科技集团公司第二十研究所 | 一种基于深度学习的视觉slam前端位姿估计方法 |
CN111627101A (zh) * | 2020-05-22 | 2020-09-04 | 北京工业大学 | 一种基于图卷积的三维人体重构方法 |
CN111798475A (zh) * | 2020-05-29 | 2020-10-20 | 浙江工业大学 | 一种基于点云深度学习的室内环境3d语义地图构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475590B2 (en) * | 2019-09-12 | 2022-10-18 | Nec Corporation | Keypoint based pose-tracking using entailment |
-
2021
- 2021-05-31 CN CN202110602225.4A patent/CN113724325B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127557A (zh) * | 2019-12-13 | 2020-05-08 | 中国电子科技集团公司第二十研究所 | 一种基于深度学习的视觉slam前端位姿估计方法 |
CN111627101A (zh) * | 2020-05-22 | 2020-09-04 | 北京工业大学 | 一种基于图卷积的三维人体重构方法 |
CN111798475A (zh) * | 2020-05-29 | 2020-10-20 | 浙江工业大学 | 一种基于点云深度学习的室内环境3d语义地图构建方法 |
Non-Patent Citations (2)
Title |
---|
"Camera Pose Estimation System Using Graph Neural Networks";Ahmed Elmoogy;《Computer Vision and Pattern Recognition》;20210331;全文 * |
"Graph-Based Hand-Object Meshes and Poses Reconstruction With Multi-Modal Input";Almadani Murad;《IEEE ACCESS》;20210131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113724325A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
Paul et al. | FAB-MAP 3D: Topological mapping with spatial and visual appearance | |
CN108257154B (zh) | 基于区域信息和cnn的极化sar图像变化检测方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN111368759B (zh) | 基于单目视觉的移动机器人语义地图构建系统 | |
CN110781790A (zh) | 基于卷积神经网络与vlad的视觉slam闭环检测方法 | |
CN113705597A (zh) | 一种图像处理方法、装置、计算机设备以及可读存储介质 | |
CN109035329A (zh) | 基于深度特征的相机姿态估计优化方法 | |
CN112258580B (zh) | 基于深度学习的视觉slam回环检测方法 | |
CN112581515A (zh) | 基于图神经网络的户外场景点云配准方法 | |
WO2022218396A1 (zh) | 图像处理方法、装置和计算机可读存储介质 | |
CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN110866934A (zh) | 基于规范性编码的复杂点云分割方法及系统 | |
CN111105439A (zh) | 一种使用残差注意力机制网络的同步定位与建图方法 | |
CN109544603A (zh) | 基于深度迁移学习的目标跟踪方法 | |
CN112949407A (zh) | 一种基于深度学习和点集优化的遥感影像建筑物矢量化方法 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN113724325B (zh) | 一种基于图卷积网络的多场景单目相机位姿回归方法 | |
CN116229519A (zh) | 一种基于知识蒸馏的二维人体姿态估计方法 | |
CN114565861A (zh) | 基于概率统计微分同胚集匹配的机载下视目标图像定位方法 | |
CN113781563B (zh) | 一种基于深度学习的移动机器人回环检测方法 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |