CN111709990B - 一种相机重定位方法和系统 - Google Patents

一种相机重定位方法和系统 Download PDF

Info

Publication number
CN111709990B
CN111709990B CN202010439991.9A CN202010439991A CN111709990B CN 111709990 B CN111709990 B CN 111709990B CN 202010439991 A CN202010439991 A CN 202010439991A CN 111709990 B CN111709990 B CN 111709990B
Authority
CN
China
Prior art keywords
pose
camera
scene
level
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010439991.9A
Other languages
English (en)
Other versions
CN111709990A (zh
Inventor
杨伟力
杨盛毅
罗达灿
刘超
陈朝猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Minzu University
Original Assignee
Guizhou Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Minzu University filed Critical Guizhou Minzu University
Priority to CN202010439991.9A priority Critical patent/CN111709990B/zh
Publication of CN111709990A publication Critical patent/CN111709990A/zh
Application granted granted Critical
Publication of CN111709990B publication Critical patent/CN111709990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/10Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
    • G01C21/12Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
    • G01C21/16Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
    • G01C21/165Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation combined with non-inertial navigation instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种相机重定位方法及系统,其中方法包括:S1:获取飞行器在多个时刻的惯性参数序列和场景图像;S2:提取所述飞行器在t‑1时刻至t时刻的所述惯性参数序列的高层次位姿特征aI;S3:提取所述飞行器在t时刻的所述场景图像的高层次特征aV;S4:将所述高层次位姿特征aI和所述高层次特征aV输入至坐标预测网络中进行预测,所述坐标预测网络输出场景位姿数据;S5:根据所述场景位姿数据建立相机姿态假设池,所述相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据,能快速、精确的对相机进行重定位。

Description

一种相机重定位方法和系统
技术领域
本发明涉及相机重定位技术领域,具体涉及一种相机重定位方法和系统。
背景技术
相机重定位是在三维环境中利用二维图像快速、准确地估计六自由度相机位姿,该任务往往作为同步定位与地图重建,增强现实,自主导航等任务的子模块。在传统相机重定位中,三维场景通过SfM(Structure from Motion)、视觉里程计或者地图重建算法获得,查询帧图像需与整个三维场景模型进行匹配,建立2D-3D候选匹配关系,这些候选2D-3D匹配列表在RANSAC(Random Sample Consensus)循环中利用PnP(Perspective-n-point)算法进行几何验证剔除异常点,对通过几何验证的2D-3D匹配再利用PnP估计相机位姿。但在大场景中,计算量则会指数级增长,导致无法满足实时应用,特别对于敏捷型飞行器或无人机需要快速实现定位,提升机动性。
现有高精度相机重定位方法主要基于DSAC++,其设计了可微RANSAC策略(Differentiable SAmple Consensus),实现端到端训练相机位姿估计网络。但如果网络初始化存在偏差则导致参数搜索空间范围扩大,不仅需要较大网络模型回归位姿,导致其前向推理速度较慢,而且往往只获得局部最优解,无法获得高精度的相机姿态。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种相机重定位方法及系统,在DSAC++基础之上,将惯性序列参数和图像数据结合,使得精度高,再结合深度神经网络使得重定位速度快,精度进一步提高。
本发明的目的是通过以下技术方案来实现的:一种相机重定位方法,包括以下步骤:
S1:获取飞行器在多个时刻的惯性参数序列和场景图像;
S2:提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征aI
S3:提取所述飞行器在t时刻的所述场景图像的高层次特征aV
S4:将所述高层次位姿特征aI和所述高层次特征aV输入至坐标预测网络中进行预测,所述坐标预测网络输出场景位姿数据;
S5:根据所述场景位姿数据建立相机姿态假设池,所述相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据。
本发明的有益效果是,由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助,因此即使存在多个相同结构和特征的区域,也能给正确的估计姿态,使得重定位的精度高,由于提取了高层次位姿特征aI,从而快速缩小坐标预测网络参数搜索范围,只需轻量型网络就能精确估计姿态,加快定位速度,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据,使得本方法能快速、精确的对相机进行重定位。
进一步,所述S1具体包括:
S101:使用IMU模块采集飞行器在多个时刻的惯性参数序列,所述惯性参数序列包括飞行器的加速度和陀螺姿态信息,所述场景图像为RGB图像。
采用上述进一步方案的有益效果是,IMU模块可测量加速度和陀螺姿态信息,输出的惯性参数序列具有较强的时域特征,频率相比图像数据更高,一般约100Hz,更适合于快速移动情况下的飞行器位姿估计,将惯性参数和场景图像进行融合得到更精确地飞行器姿态。
进一步,所述S2具体包括:
S201:将所述飞行器在t-1至t时刻的所述惯性参数序列输入至三层双向LSTM模型,所述LSTM模型输出所述高层次位姿特征aI,所述高层次位姿特征aI为:aI=finertial(xI),其中finertial()是LSTM编码器,xI是IMU数据序列。
采用上述进一步方案的有益效果是,利用长短期记忆模型LSTM(long short-termmemory)直接从惯性参数序列提取高层次特征表达aI,将高层次特征aI嵌入至场景坐标预测网络,作为一组辅助特征与DSAC++中的场景坐标预测网络进行特征融合,缩小模型参数搜索空间,促进丰富的图像特征获得高精度位姿。
进一步,所述S3具体包括:
S301:将所述飞行器在t时刻的所述场景图像输入至基于DSAC++中的场景坐标预测FCN网络,所述FCN前端编码器提取的高层次特征aV为:aV=fcamera(I),其中,fcamera()为FCN前端编码器,I为所述场景图像的RGB图像。
采用上述进一步方案的有益效果是,输入场景图时,将分辨率设置为640×480,进入DSAC++中的场景坐标预测FCN网络,最终产生80×60个点的稠密场景坐标预测,FCN是一种经典网络结构,在像素级分类任务(如语义分割、光流估计等)具有良好表现,因此在像素级三维坐标估计任务上也能达到较好的结果。
进一步,所述S4具体包括:
S401:通过FCN网络将所述高层次位姿特征aI和所述高层次特征aV进行融合,得到融合特征z,z=g(aV,aI),其中,进行融合的方式为直接拼接,即:gdreat(aV,aI)=[aV,aI];
S402:根据所述融合特征z,所述FCN网络输出场景位姿数据,所述场景位姿数据为对应原始图像的各个图像块的三维坐标。
采用上述进一步方案的有益效果是,由于每一帧场景图像的高层次特征aV,都有时间对齐的惯性参数序列的高层次位姿特征aI进行辅助,因此对于存在多个相同结构和特征的区域,也能给正确的估计姿态,且将惯性参数序列的高层次位姿特征aI融合至场景坐标预测模型,而无需初始化步骤,提升定位精度,同时辅助姿态信息的使用缩小了网络参数搜索空间,因此只需较小的网络模型即可达到好的位姿估计结果。
进一步,所述FCN网络的后10层卷积层替换为4层可分离卷积层。
采用上述进一步方案的有益效果是,将FCN后10层卷积层替换为4层可分离卷积层,网络层数的降低自然提升前向推理速度,同时轻量化网络具有更好的泛化能力,更能适应新的自然场景。
进一步,所述S5中具体包括:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),所述重投影误差为rj(hi,w)=||Chiyi(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据所述重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择所述假设,
Figure GDA0004128959720000041
Figure GDA0004128959720000051
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
采用上述进一步方案的有益效果是,对每一个相机姿态假设计算可信度分数,使用softmax分布P(j;w;α)选择最佳相机姿态假设作为重定位数据,使得精度高。
进一步,所述S5还包括:
S505:利用信息熵策略自适应地调节分布的尺度,对所述softmax输出概率采用自适应调节超参α:
Figure GDA0004128959720000052
其中,目标熵值设定为S*,利用梯度下降算法依据argmina|S(a)-S*|优化α。
采用上述进一步方案的有益效果是,由于不同环境下分数幅度波动较大,为保证分数在有效范围内,进而保证端到端训练更加稳定和易于收敛,利用信息熵策略自适应地调节分布的尺度。
一种相机重定位系统,包括惯性参数序列获取模块、场景图像获取模块、高层次位姿特征提取模块、高层次特征提取模块、坐标预测模块和相机姿态假设选择模块;
所述惯性参数序列获取模块用于获取飞行器在多个时刻的惯性参数序列,并发送至所述高层次位姿特征提取模块;
所述高层次位姿特征提取模块用于提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征aI,并发送至所述坐标预测模块;
所述场景图像获取模块用于获取飞行器在多个时刻的场景图像,并发送至所述高层次特征提取模块;
所述高层次特征提取模块用于所述飞行器在t时刻的所述场景图像的高层次特征aV,并发送至所述坐标预测模块;
所述坐标预测模块用于根据所述高层次位姿特征aI和高层次特征aV输出场景位姿数据,并发送至所述相机姿态假设选择模块;
所述相机姿态假设选择模块用于根据所述场景位姿数据建立相机姿态假设池,所述相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据。
本发明的有益效果是,由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助,因此即使存在多个相同结构和特征的区域,也能给正确的估计姿态,使得重定位的精度高,由于提取了高层次位姿特征aI,从而快速缩小坐标预测网络参数搜索范围,只需轻量型网络就能精确估计姿态,加快定位速度,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据,使得本方法能快速、精确的对相机进行重定位
进一步,所述相机姿态假设选择模块计算重定位数据的具体过程为:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),所述重投影误差为rj(hi,w)=||Chiyi(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据所述重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择所述假设,
Figure GDA0004128959720000061
Figure GDA0004128959720000062
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
采用上述进一步方案的有益效果是,对每一个相机姿态假设计算可信度分数,使用softmax分布P(j;w;α)选择最佳相机姿态假设作为重定位数据,使得精度高。
如表1所示,为本发明中英文名称释义
表1
Figure GDA0004128959720000071
Figure GDA0004128959720000081
附图说明
图1为本发明的一种相机重定位方法的流程图;
图2为本发明的一个实施例的网络结构图;
图3为本发明与现有技术的实验结果对比图;
图4为本发明的一种相机重定位系统的结构图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下。
实施例1
参照图1,一种相机重定位方法,包括以下步骤:
S1:获取飞行器在多个时刻的惯性参数序列和场景图像;
S2:提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征aI
S3:提取飞行器在t时刻的场景图像的高层次特征aV
S4:将高层次位姿特征aI和高层次特征aV输入至坐标预测网络中进行预测,坐标预测网络输出场景位姿数据;
S5:根据场景位姿数据建立相机姿态假设池,相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,可信度分数最高的相机姿态假设作为重定位数据。
由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助,因此即使存在多个相同结构和特征的区域,也能给正确的估计姿态,使得重定位的精度高,由于提取了高层次位姿特征aI,从而快速缩小坐标预测网络参数搜索范围,只需轻量型网络就能精确估计姿态,加快定位速度,每一个相机姿态假设对应一个可信度分数,可信度分数最高的相机姿态假设作为重定位数据,使得本方法能快速、精确的对相机进行重定位。
参照图1,S1具体包括:
所述S1具体包括:
S101:使用IMU模块采集飞行器在多个时刻的惯性参数序列,所述惯性参数序列包括飞行器的加速度和陀螺姿态信息,所述场景图像为RGB图像。
其中,场景图像是包含飞行器所在的周围环境的信息的图像,惯性参数序列是包含加速度和陀螺姿态信息的时间序列,包含每个测量时间对应的加速度和陀螺姿态信息,IMU模块可测量加速度和陀螺姿态信息,输出的惯性参数序列具有较强的时域特征,频率相比图像数据更高,一般约100Hz,更适合于快速移动情况下的飞行器位姿估计,将惯性参数和场景图像进行融合得到更精确地飞行器姿态。
参照图2,S2具体包括:
S201:将飞行器在t-1至t时刻的惯性参数序列输入至三层双向LSTM模型,LSTM模型输出高层次位姿特征aI,高层次位姿特征aI为:aI=finertial(xI),其中finertial()是LSTM编码器,xI是IMU数据序列。
利用长短期记忆模型LSTM(long short-term memory)直接从惯性参数序列提取高层次特征表达aI,将高层次特征aI嵌入至场景坐标预测网络,作为一组辅助特征与DSAC++中的场景坐标预测网络进行特征融合,缩小模型参数搜索空间,促进丰富的图像特征获得高精度位姿。
参照图2,S3具体包括:
S301:将飞行器在t时刻的场景图像输入至基于DSAC++中的场景坐标预测FCN网络,FCN前端编码器提取的高层次特征aV为:aV=fcamera(I),其中,fcamera()为FCN前端编码器,I为场景图像的RGB图像。
输入场景图时,将分辨率设置为640×480,进入DSAC++中的场景坐标预测FCN网络,最终产生80×60个点的稠密场景坐标预测,FCN是一种经典网络结构,在像素级分类任务(如语义分割、光流估计等)具有良好表现,因此在像素级三维坐标估计任务上也能达到较好的结果。
S4具体包括:
S401:通过FCN网络将高层次位姿特征aI和高层次特征aV进行融合,得到融合特征z,z=g(aV,aI),其中,进行融合的方式为直接拼接,即:gdreat(aV,aI)=[aV,aI];
S402:根据融合特征z,FCN网络输出场景位姿数据,场景位姿数据对应原始图像的各个图像块的三维坐标。
由于每一帧场景图像的高层次特征aV,都有时间对齐的惯性参数序列高层次位姿特征aI进行辅助,因此对于存在多个相同结构和特征的区域,也能给正确的估计姿态,且将惯性参数序列的高层次位姿特征aI融合至场景坐标预测模型,而无需初始化步骤,提升定位精度,同时辅助姿态信息的使用缩小了网络参数搜索空间,因此只需较小的网络模型即可达到好的位姿估计结果。
FCN网络的后10层卷积层替换为4层可分离卷积层。
将FCN后10层卷积层替换为4层可分离卷积层,网络层数的降低自然提升前向推理速度,同时轻量化网络具有更好的泛化能力,更能适应新的自然场景。
S5中具体包括:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),重投影误差为rj(hi,w)=||Chiyi(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择假设,
Figure GDA0004128959720000111
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
对每一个相机姿态假设计算可信度分数,使用softmax分布P(j;w;α)选择最佳相机姿态假设作为重定位数据,使得精度高。
S5还包括:
S505:利用信息熵策略自适应地调节分布的尺度,对softmax输出概率采用自适应调节超参α:
Figure GDA0004128959720000121
其中,目标熵值设定为S*,利用梯度下降算法依据argmina|S(a)-S*|优化α。
由于不同环境下分数幅度波动较大,为保证分数在有效范围内,进而保证端到端训练更加稳定和易于收敛,利用信息熵策略自适应地调节分布的尺度。
具体实施时,实验采用数据集Cambridge Landmarks dataset和7Scenesdataset,Cambridge Landmarks dataset使用智能手机拍摄室外场景视频,并用SfM算法标注位姿,该数据集具有行人、车辆、光照变化、天气变化等难度较高的场景。7Scenesdataset是使用Kinect V1拍摄的一组室内场景数据集,包括7个办公室场景,每个场景在一间房内拍摄,该数据集包括许多无纹理场景。超参α初始为0.1,β设置为0.5,内点阈值τ设置为10个像素。使用ADAM优化器进行优化,ADAM优化器结合AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计进行综合考虑,计算出更新步长。其中,学习率设置为10-6
参照图3,为在两个数据集下的不同场景测试得到的相机位姿估计的中值误差,在两个数据集上,均得到了与DSAC++极具竞争力的性能。在7Scenes数据集中获得更好的实验效果,特别是在角度误差上明显比DSAC++的误差要小,这是因为7Scenes数据集在室内场景拍摄,存在较多无纹理区域,因此图像信息提供的位姿估计能力相对较弱,此时,IMU姿态信息对位姿的贡献得到明显体现,
参照图3,在Stairs场景中,DSAC++位置误差和角度误差分别是0.29m和5.1°,本发明的重定位网络中位置误差降低为0.21m,角度误差则大大降低为原来的一半。可见,本发明的重定位网络对于无纹理或弱纹理场景具有良好的位姿精度。在Cambridge Landmarks数据集中部分场景也获得了较好结果。Cambridge Landmarks在室外拍摄,室外自然场景纹理更加丰富,图像信息就能够获得较好的位姿估计。
实施例2
在实施例1的基础上,一种相机重定位系统,包括惯性参数序列获取模块、场景图像获取模块、高层次位姿特征提取模块、高层次特征提取模块、坐标预测模块和相机姿态假设选择模块;
惯性参数序列获取模块用于获取飞行器在多个时刻的惯性参数序列,并发送至高层次位姿特征提取模块;
高层次位姿特征提取模块用于提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征aI,并发送至坐标预测模块;
场景图像获取模块用于获取飞行器在多个时刻的场景图像,并发送至高层次特征提取模块;
高层次特征提取模块用于飞行器在t时刻的场景图像的高层次特征aV,并发送至坐标预测模块;
坐标预测模块用于根据高层次位姿特征aI和高层次特征aV输出场景位姿数据,并发送至相机姿态假设选择模块;
相机姿态假设选择模块用于根据场景位姿数据建立相机姿态假设池,相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,可信度分数最高的相机姿态假设作为重定位数据。
由于每一帧场景图像都有时间对齐的惯性参数序列进行辅助,因此即使存在多个相同结构和特征的区域,也能给正确的估计姿态,使得重定位的精度高,由于提取了高层次位姿特征aI,从而快速缩小坐标预测网络参数搜索范围,只需轻量型网络就能精确估计姿态,加快定位速度,每一个相机姿态假设对应一个可信度分数,可信度分数最高的相机姿态假设作为重定位数据,使得本方法能快速、精确的对相机进行重定位。
惯性参数序列获取模块为IMU模块,场景图像获取模块为RGB-D相机,均安装在所述飞行器上,IMU模块用于采集飞行器多个时刻的惯性参数,图像采集模块用于采集飞行器多个时刻的场景图像,惯性参数包括加速度和陀螺姿态信息,场景图像为RGB图像。IMU模块可测量加速度和陀螺姿态信息,输出的惯性参数序列具有较强的时域特征,频率相比图像数据更高,一般约100Hz,更适合于快速移动情况下的飞行器位姿估计,将惯性参数和场景图像进行融合得到更精确地飞行器姿态。
高层次位姿特征提取模块提取飞行器在t-1时刻至t时刻的惯性参数序列的高层次位姿特征aI的具体过程为:
S201:将飞行器在t-1至t时刻的惯性参数序列输入至三层双向LSTM模型,LSTM模型输出高层次位姿特征aI,高层次位姿特征aI为:aI=finertial(xI),其中finertial()是LSTM编码器,xI是IMU数据序列。
利用长短期记忆模型LSTM(long short-term memory)直接从惯性参数序列提取高层次特征表达aI,将高层次特征aI嵌入至场景坐标预测网络,作为一组辅助特征与DSAC++中的场景坐标预测网络进行特征融合,缩小模型参数搜索空间,促进丰富的图像特征获得高精度位姿。
高层次特征提取模块提取飞行器在t时刻的场景图像的高层次特征aV的过程为:
S301:将飞行器在t时刻的场景图像输入至基于DSAC++中的场景坐标预测FCN网络,FCN前端编码器提取的高层次特征aV为:aV=fcamera(I),其中,fcamera()为FCN前端编码器,I为场景图像的RGB图像。
输入场景图时,将分辨率设置为640×480,进入DSAC++中的场景坐标预测FCN网络,最终产生80×60个点的稠密场景坐标预测,FCN是一种经典网络结构,在像素级分类任务(如语义分割、光流估计等)具有良好表现,因此在像素级三维坐标估计任务上也能达到较好的结果。
坐标预测模块根据高层次位姿特征aI和高层次特征aV输出场景位姿数据的具体过程为:
S401:通过FCN网络将高层次位姿特征aI和高层次特征aV进行融合,得到融合特征z,z=g(aV,aI),其中,进行融合的方式为直接拼接,即:gdreat(aV,aI)=[aV,aI];
S402:根据融合特征z,FCN网络输出场景位姿数据,场景位姿数据对应原始图像的各个图像块的三维坐标。
由于每一帧场景图像的高层次特征aV,都有时间对齐的惯性参数序列高层次位姿特征aI进行辅助,因此对于存在多个相同结构和特征的区域,也能给正确的估计姿态,且将惯性参数序列的高层次位姿特征aI融合至场景坐标预测模型,而无需初始化步骤,提升定位精度,同时辅助姿态信息的使用缩小了网络参数搜索空间,因此只需较小的网络模型即可达到好的位姿估计结果。
FCN网络的后10层卷积层替换为4层可分离卷积层。
将FCN后10层卷积层替换为4层可分离卷积层,网络层数的降低自然提升前向推理速度,同时轻量化网络具有更好的泛化能力,更能适应新的自然场景。
相机姿态假设选择模块对息计算重定位数据的具体过程为:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),重投影误差为rj(hi,w)=||Chiyi(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择假设,
Figure GDA0004128959720000161
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
对每一个相机姿态假设计算可信度分数,使用softmax分布P(j;w;α)选择最佳相机姿态假设作为重定位数据,使得精度高。
以上仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护。

Claims (10)

1.一种相机重定位方法,其特征在于,包括以下步骤:
S1:获取飞行器在多个时刻的惯性参数序列和场景图像;
S2:提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征aI
S3:提取所述飞行器在t时刻的所述场景图像的高层次特征aV
S4:将所述高层次位姿特征aI和所述高层次特征aV输入至坐标预测网络中进行预测,所述坐标预测网络输出场景位姿数据;
S5:根据所述场景位姿数据建立相机姿态假设池,所述相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据。
2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:
S101:使用IMU模块采集飞行器在多个时刻的惯性参数序列,所述惯性参数序列包括飞行器的加速度和陀螺姿态信息,所述场景图像为RGB图像。
3.根据权利要求1所述的方法,其特征在于,所述S2具体包括:
S201:将所述飞行器在t-1至t时刻的所述惯性参数序列输入至三层双向LSTM模型,所述LSTM模型输出所述高层次位姿特征aI,所述高层次位姿特征aI为:aI=finertial(xI),其中finertial()是LSTM编码器,xI是IMU数据序列。
4.根据权利要求1所述的方法,其特征在于,所述S3具体包括:
S301:将所述飞行器在t时刻的所述场景图像输入至基于DSAC++中的场景坐标预测FCN网络,所述FCN前端编码器提取的高层次特征aV为:aV=fcamera(I),其中,fcamera()为FCN前端编码器,I为所述场景图像的RGB图像。
5.根据权利要求1所述的方法,其特征在于,所述S4具体包括:
S401:通过FCN网络将所述高层次位姿特征aI和所述高层次特征aV进行融合,得到融合特征z,z=g(aV,aI),其中,进行融合的方式为直接拼接,即:gdreat(aV,aI)=[aV,aI];
S402:根据所述融合特征z,所述FCN网络输出场景位姿数据,所述场景位姿数据对应原始图像的各个图像块的三维坐标。
6.根据权利要求5所述的方法,其特征在于,所述FCN网络的后10层卷积层替换为4层可分离卷积层。
7.根据权利要求1-6任一所述的方法,其特征在于,所述S5的具体过程为:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),所述重投影误差为rj(hi,w)=||Chiyj(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据所述重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择所述假设,
Figure FDA0004128959710000021
Figure FDA0004128959710000022
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
8.根据权利要求7所述的方法,其特征在于,所述S5还包括:
S505:利用信息熵策略自适应地调节分布的尺度,对所述softmax输出概率采用自适应调节超参α:
Figure FDA0004128959710000031
其中,目标熵值设定为S*,利用梯度下降算法依据argmina|S(a)-S*|优化α。
9.一种相机重定位系统,其特征在于,包括惯性参数序列获取模块、场景图像获取模块、高层次位姿特征提取模块、高层次特征提取模块、坐标预测模块和相机姿态假设选择模块;
所述惯性参数序列获取模块用于获取飞行器在多个时刻的惯性参数序列,并发送至所述高层次位姿特征提取模块;
所述高层次位姿特征提取模块用于提取所述飞行器在t-1时刻至t时刻的所述惯性参数序列的高层次位姿特征aI,并发送至所述坐标预测模块;
所述场景图像获取模块用于获取飞行器在多个时刻的场景图像,并发送至所述高层次特征提取模块;
所述高层次特征提取模块用于所述飞行器在t时刻的所述场景图像的高层次特征aV,并发送至所述坐标预测模块;
所述坐标预测模块用于根据所述高层次位姿特征aI和高层次特征aV输出场景位姿数据,并发送至所述相机姿态假设选择模块;
所述相机姿态假设选择模块用于根据所述场景位姿数据建立相机姿态假设池,所述相机姿态假设池中包含多个相机姿态假设,每一个相机姿态假设对应一个可信度分数,所述可信度分数最高的相机姿态假设作为重定位数据。
10.根据权利要求9所述的系统,其特征在于,所述相机姿态假设选择模块计算重定位数据的具体过程为:
S501:随机挑选一个场景位姿数据子集构建一个相机姿态假设池{hi,i=1…N};
S502:根据可微RANSAC策略依据重投影误差给出每一个假设hi对应的可信度分数s(hi),所述重投影误差为rj(hi,w)=||Chiyj(w)-pj||,其中C是相机内参矩阵,pj是该设定相机姿态下图像坐标系下的像素坐标值;
S503:根据所述重投影误差计算可信度分数s(hi)=∑isig(τ-β(rj(hi,w))),其中,超参β用于调节sigmoid函数的柔性程度,τ为内点阈值;
S504:依据softmax分布P(j;w;α)选择所述假设,
Figure FDA0004128959710000041
Figure FDA0004128959710000042
其中超参α是固定分布尺度的参数,得分最高的相机姿态假设作为重定位数据,重定位数据为hi=[R|t],其中t为相机的三维位移,R为欧拉角表示的方向矩阵。
CN202010439991.9A 2020-05-22 2020-05-22 一种相机重定位方法和系统 Active CN111709990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439991.9A CN111709990B (zh) 2020-05-22 2020-05-22 一种相机重定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439991.9A CN111709990B (zh) 2020-05-22 2020-05-22 一种相机重定位方法和系统

Publications (2)

Publication Number Publication Date
CN111709990A CN111709990A (zh) 2020-09-25
CN111709990B true CN111709990B (zh) 2023-06-20

Family

ID=72538081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439991.9A Active CN111709990B (zh) 2020-05-22 2020-05-22 一种相机重定位方法和系统

Country Status (1)

Country Link
CN (1) CN111709990B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114543797B (zh) * 2022-02-18 2024-06-07 北京市商汤科技开发有限公司 位姿预测方法和装置、设备、介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201111871D0 (en) * 2011-07-11 2011-08-24 Toshiba Res Europ Ltd An image processing method and system
CN105184776A (zh) * 2015-08-17 2015-12-23 中国测绘科学研究院 目标跟踪方法
CN105913454A (zh) * 2016-04-06 2016-08-31 东南大学 一种视频图像中运动目标的像素坐标轨迹预测方法
CN108489482A (zh) * 2018-02-13 2018-09-04 视辰信息科技(上海)有限公司 视觉惯性里程计的实现方法及系统
CN109341724A (zh) * 2018-12-04 2019-02-15 中国航空工业集团公司西安航空计算技术研究所 一种机载相机-惯性测量单元相对位姿在线标定方法
DE102018124211A1 (de) * 2017-10-06 2019-04-11 Nvidia Corporation Lernbasierte Kameraposenschätzung von Bildern einer Umgebung
CN109887057A (zh) * 2019-01-30 2019-06-14 杭州飞步科技有限公司 生成高精度地图的方法和装置
CN109883452A (zh) * 2019-04-16 2019-06-14 百度在线网络技术(北京)有限公司 参数标定方法和装置、电子设备、计算机可读介质
CN110095116A (zh) * 2019-04-29 2019-08-06 桂林电子科技大学 一种基于lift的视觉定位和惯性导航组合的定位方法
CN110657801A (zh) * 2018-06-29 2020-01-07 高德软件有限公司 定位方法、装置以及电子设备
CN110823214A (zh) * 2019-10-18 2020-02-21 西北工业大学 一种空间完全非合作目标相对位姿和惯量估计方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037028B2 (en) * 2015-07-24 2018-07-31 The Trustees Of The University Of Pennsylvania Systems, devices, and methods for on-board sensing and control of micro aerial vehicles
US10645366B2 (en) * 2016-06-10 2020-05-05 Lucid VR, Inc. Real time re-calibration of stereo cameras
US10839547B2 (en) * 2017-09-28 2020-11-17 Samsung Electronics Co., Ltd. Camera pose determination and tracking
CN107747941B (zh) * 2017-09-29 2020-05-15 歌尔股份有限公司 一种双目视觉定位方法、装置及系统
FR3073311A1 (fr) * 2017-11-09 2019-05-10 Centralesupelec Procede d'estimation de pose d'une camera dans le referentiel d'une scene tridimensionnelle, dispositif, systeme de realite augmentee et programme d'ordinateur associe

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201111871D0 (en) * 2011-07-11 2011-08-24 Toshiba Res Europ Ltd An image processing method and system
CN105184776A (zh) * 2015-08-17 2015-12-23 中国测绘科学研究院 目标跟踪方法
CN105913454A (zh) * 2016-04-06 2016-08-31 东南大学 一种视频图像中运动目标的像素坐标轨迹预测方法
DE102018124211A1 (de) * 2017-10-06 2019-04-11 Nvidia Corporation Lernbasierte Kameraposenschätzung von Bildern einer Umgebung
CN108489482A (zh) * 2018-02-13 2018-09-04 视辰信息科技(上海)有限公司 视觉惯性里程计的实现方法及系统
CN110657801A (zh) * 2018-06-29 2020-01-07 高德软件有限公司 定位方法、装置以及电子设备
CN109341724A (zh) * 2018-12-04 2019-02-15 中国航空工业集团公司西安航空计算技术研究所 一种机载相机-惯性测量单元相对位姿在线标定方法
CN109887057A (zh) * 2019-01-30 2019-06-14 杭州飞步科技有限公司 生成高精度地图的方法和装置
CN109883452A (zh) * 2019-04-16 2019-06-14 百度在线网络技术(北京)有限公司 参数标定方法和装置、电子设备、计算机可读介质
CN110095116A (zh) * 2019-04-29 2019-08-06 桂林电子科技大学 一种基于lift的视觉定位和惯性导航组合的定位方法
CN110823214A (zh) * 2019-10-18 2020-02-21 西北工业大学 一种空间完全非合作目标相对位姿和惯量估计方法

Also Published As

Publication number Publication date
CN111709990A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
US10546387B2 (en) Pose determination with semantic segmentation
CN108230361B (zh) 用无人机探测器和追踪器融合来增强目标追踪方法及系统
US10929713B2 (en) Semantic visual landmarks for navigation
US10586344B2 (en) System and method for feature screening in SLAM
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN109584213B (zh) 一种多目标编号选定跟踪方法
Chen et al. Drogue tracking using 3D flash lidar for autonomous aerial refueling
CN109298778B (zh) 追踪系统及其方法
WO2023056544A1 (en) Object and camera localization system and localization method for mapping of the real world
CN112815923B (zh) 视觉定位方法和装置
CN114719848B (zh) 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法
CN113190120B (zh) 位姿获取方法、装置、电子设备及存储介质
US11398048B2 (en) Estimating camera pose
CN110428461B (zh) 结合深度学习的单目slam方法及装置
CN111709990B (zh) 一种相机重定位方法和系统
CN116092178A (zh) 一种面向移动端的手势识别和跟踪方法及系统
CN112419411B (zh) 一种基于卷积神经网络和光流特征视觉里程计的实现方法
US20220412741A1 (en) Information processing apparatus, information processing method, and program
Koizumi et al. Development of attitude sensor using deep learning
CN111611869A (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
Li et al. Driver drowsiness behavior detection and analysis using vision-based multimodal features for driving safety
US20240005587A1 (en) Machine learning based controllable animation of still images
Shahbazi et al. Visual–inertial object tracking: Incorporating camera pose into motion models
CN109784189A (zh) 基于深度学习的视频卫星遥感图像景相匹配方法及其装置
Rostum et al. A review of using visual odometery methods in autonomous UAV Navigation in GPS-Denied Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant