CN115358962B - 一种端到端视觉里程计方法及装置 - Google Patents

一种端到端视觉里程计方法及装置 Download PDF

Info

Publication number
CN115358962B
CN115358962B CN202211269544.9A CN202211269544A CN115358962B CN 115358962 B CN115358962 B CN 115358962B CN 202211269544 A CN202211269544 A CN 202211269544A CN 115358962 B CN115358962 B CN 115358962B
Authority
CN
China
Prior art keywords
current frame
image information
pooling layer
layer
data processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211269544.9A
Other languages
English (en)
Other versions
CN115358962A (zh
Inventor
王祎男
梁贵友
关瀛洲
曹礼军
翟诺
王迪
曹容川
张天奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202211269544.9A priority Critical patent/CN115358962B/zh
Publication of CN115358962A publication Critical patent/CN115358962A/zh
Application granted granted Critical
Publication of CN115358962B publication Critical patent/CN115358962B/zh
Priority to PCT/CN2023/091529 priority patent/WO2024082602A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种端到端视觉里程计方法及装置,属于自动驾驶技术领域。所述端到端视觉里程计方法包括:获取当前帧图像信息及前一帧图像信息;获取当前帧的亮度图像信息及前一帧的亮度图像信息;获取当前帧融合图像信息;获取当前帧的前一帧的融合图像信息;通过跳跃‑融合‑FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;根据融合图像特征获取摄像装置的位姿估计信息。通过本申请的方法能够增强图像的对比度,提供更多的细节信息,从而提高图像特征提取的精度,降低位姿估计过程中的误差。

Description

一种端到端视觉里程计方法及装置
技术领域
本申请涉及自动驾驶技术领域,具体涉及一种端到端视觉里程计方法以及端到端视觉里程计装置。
背景技术
同时定位与建图(Simultaneous Localization And Mapping,SLAM)是计算机视觉领域的重要研究方向之一。在自动驾驶的相关研究中,SLAM是关键核心技术之一。在SLAM系统中,需要执行大量的位姿估计任务。视觉里程计(Visual Odemetry,VO)是SLAM系统框架中的前端,其目的是根据车载导航视频通过计算机视觉技术对图像序列进行分析和处理,输出车辆的估计位姿。VO将相邻时刻采集的图像序列作为输入,在估计车辆运动的同时生成初步优化的局部地图,并提供给后端进行下一步优化。传统的VO方法主要包括特征点法和直接法。特征点法需要提取图像序列的特征点,通过特征匹配来构建几何模型,从而估计车辆的运动。直接法通常是基于光度不变假设来估计相邻图像序列之间的车辆运动。VO进行位姿估计的精度影响着SLAM系统整体的轨迹精度。然而,传统的特征提取算法容易受到噪声、光照条件以及视角的影响,其鲁棒性较差。另外,该类算法提取的特征点的类型较为单一,会影响后续特征匹配的准确度,进而影响输出位姿估计的精度。
随着图像成像技术的成熟以及计算机视觉技术的飞速发展,VO方法得到了深入研究和广泛应用。目前,深度学习技术在计算机视觉领域中发挥着越来越重要的作用,它拥有强大的学习能力以及提取更深层次、更抽象特征的能力,已成为VO中非常重要的特征提取方法之一。深度学习特征提取方法能够学习到图像序列间的内在关联,提取到性能优异的特征点。Deep VO是当前应用较为广泛的一种端到端的VO算法。该算法是一种监督学习方法,能够从输入的图像序列中直接估计出车辆相应的位姿。
然而,在低光照或光照不均匀场景中采集的图像,由于图像对比度较低,缺乏动态移动细节特征,依然无法保证良好的性能。
因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。
发明内容
本发明的目的在于提供一种端到端视觉里程计方法来至少解决上述的一个技术问题。
本发明的一个方面,提供一种端到端视觉里程计方法,用于获取车辆上的摄像装置的位姿估计信息,所述端到端视觉里程计方法包括:
获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;
分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;
对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息;
对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;
根据所述融合图像特征获取摄像装置的位姿估计信息。
可选地,所述对当前帧图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息包括:
获取当前帧图像信息中的当前帧源图像序列;
将当前帧源图像序列变换到灰度空间,对当前帧图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧暗类像素集合,当前帧中类像素集合,当前帧亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据所述曝光度对当前帧源图像序列进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的亮度图像信息;
所述对当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的前一帧的亮度图像信息包括:
获取当前帧的前一帧的图像信息中的当前帧的前一帧的图像序列;
将当前帧的前一帧的图像序列变换到灰度空间,对当前帧的前一帧的图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧的前一帧的暗类像素集合,当前帧的前一帧的中类像素集合,当前帧的前一帧的亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据所述曝光度对当前帧的前一帧的图像信息进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的前一帧的亮度图像信息。
可选地,对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息包括:
采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合:
Figure 64800DEST_PATH_IMAGE001
;其中,
Figure 247520DEST_PATH_IMAGE002
表示当前帧图像信息中像素p位置处的权重,
Figure 620733DEST_PATH_IMAGE003
I 为当前帧源图像序列;
Figure 219204DEST_PATH_IMAGE004
为当前帧亮度图像信息;
Figure 299156DEST_PATH_IMAGE005
表示当前帧融合图像 信息;
Figure 715093DEST_PATH_IMAGE006
其中,
Figure 185389DEST_PATH_IMAGE007
表示高斯滤波器,
Figure 977765DEST_PATH_IMAGE008
Figure 912223DEST_PATH_IMAGE009
分别表示傅里叶变换及其逆变换,
Figure 108849DEST_PATH_IMAGE010
表示n×n矩阵,矩阵中的每个元素均为1/n2
Figure 456653DEST_PATH_IMAGE011
Figure 459244DEST_PATH_IMAGE012
分别表示复数矩阵 的实数部分和虚数部分;
Figure 185892DEST_PATH_IMAGE013
表示像素p扩大之后的像素值;I(p)表示像素p的灰度值;
Figure 209212DEST_PATH_IMAGE014
为显著性图谱。
可选地,所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括:
获取FCNN神经网络模型,所述FCNN神经网络模型包括五个池化层以及七个卷积层,其中,所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层;所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;
将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息;
将所述最终输入图像信息输入至所述FCNN神经网络模型,以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理;
根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征;
根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征;
根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征;
将所述第一路径特征、第二路径特征以及第三路径特征进行融合,从而获取所述融合图像特征。
可选地,所述第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数;
所述根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括:
对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将三个不同深度的预测结果进行合并从而获取第一路径特征。
可选地,所述根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征包括:
对经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将四个不同深度的预测结果进行合并从而获取第二路径特征。
可选地,所述根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征包括:
对经过所述第一池化层处理后的数据进行16倍下采样、经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述16倍下采样的数据、所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将五个不同深度的预测结果进行合并从而获取第三路径特征。
可选地,所述池化层的参数包括图像尺寸参数以及通道数;所述卷积层的参数包括图像尺寸参数以及通道数;
所述第一池化层的图像尺寸参数为(M/2)×(N/2);所述第一池化层的通道数为64;
所述第二池化层的图像尺寸参数为(M/4)×(N/4);所述第二池化层的通道数为128;
所述第三池化层的图像尺寸参数为(M/8)×(N/8);所述第三池化层的通道数为256;
所述第四池化层的图像尺寸参数为(M/16)×(N/16);所述第四池化层的通道数为256;
所述第五池化层的图像尺寸参数为(M/32)×(N/32);所述第五池化层的通道数为512;
所述第六卷积层的图像尺寸参数为4096×(M/32)×(N/32);所述第六卷积层的通道数为512;
所述第七卷积层的图像尺寸参数为4096×(M/32)×(N/32);所述第七卷积层的通道数为512。
可选地,所述根据所述融合图像特征获取位姿估计信息包括:
将所述融合图像特征输入至长短期记忆神经网络中,从而获取摄像装置的位姿估计信息。
本申请还提供了一种端到端视觉里程计装置,所述端到端视觉里程计装置包括:
图像获取模块,所述图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;
灰度变换处理模块,所述灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;
融合模块,所述融合模块用于对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息以及对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;
特征提取模块,所述特征提取模块用于通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;
位姿估计模块,所述位姿估计模块用于根据所述融合图像特征获取摄像装置的位姿估计信息。
有益效果
本申请的端到端视觉里程计方法通过对源图像序列进行灰度变换获得其亮度图像,设计基于谱残差理论的图像融合算法将图像序列及其亮度图像进行合并,增强图像的对比度,提供更多的细节信息。为了提高图像特征提取的精度,降低位姿估计过程中的误差,本申请设计了基于跳跃-融合-FCNN的特征提取算法,对传统的全卷积神经网络(fullyconvolutional neural network,FCNN)进行了改进,提出跳跃-融合-FCNN网络模型,构建了3条不同的路径进行特征提取。在每条路径中,通过下采样将不同深度的预测结果进行融合,获得特征图谱。合并3个不同的特征图谱,获得融合图像特征,同时考虑了图像的结构信息和细节信息。
附图说明
图1是本申请一实施例的端到端视觉里程计方法的流程示意图。
图2是能够实现本申请一实施例的端到端视觉里程计方法的电子设备的示意图。
图3是本申请一实施例的端到端视觉里程计方法的架构示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
图1是本申请一实施例的端到端视觉里程计方法的流程示意图。
本申请的端到端视觉里程计方法用于获取车辆上的摄像装置的位姿估计信息。
如图1及图3所示的端到端视觉里程计方法包括:
步骤1:获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;
步骤2:分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;
步骤3:对当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息;
步骤4:对当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;
步骤5:根据融合图像特征获取摄像装置的位姿估计信息。
本申请的端到端视觉里程计方法通过对源图像序列进行灰度变换获得其亮度图像,设计基于谱残差理论的图像融合算法将图像序列及其亮度图像进行合并,增强图像的对比度,提供更多的细节信息。为了提高图像特征提取的精度,降低位姿估计过程中的误差,本申请设计了基于跳跃-融合-FCNN的特征提取算法,对传统的全卷积神经网络(fullyconvolutional neural network,FCNN)进行了改进,提出跳跃-融合-FCNN网络模型,构建了3条不同的路径进行特征提取。在每条路径中,通过下采样将不同深度的预测结果进行融合,获得特征图谱。合并3个不同的特征图谱,获得融合图像特征,同时考虑了图像的结构信息和细节信息。
在本实施中,对当前帧图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息包括:
获取当前帧图像信息中的当前帧源图像序列;
将当前帧源图像序列变换到灰度空间,对当前帧图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧暗类像素集合,当前帧中类像素集合,当前帧亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据曝光度对当前帧源图像序列进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的亮度图像信息。
具体而言,首先,将源图像序列变换到灰度空间,对源图像I中的像素进行划分,分为暗类(I D ),中类(I M )和亮类(I B )。假设p为源图像I中的一个像素,p通过如下公式进行分类。
Figure 716416DEST_PATH_IMAGE015
;其中,
I D 表示暗类像素集合、I M 中类像素集合、I B 表示亮类像素集合,I(p)表示像素p的灰 度值。
Figure 194802DEST_PATH_IMAGE016
Figure 103852DEST_PATH_IMAGE017
表示两个阈值,可通过多阈值Otsu算法获得。
然后,通过计算3类像素(暗类,中类和亮类)的曝光度,来判断各个像素点是否曝 光良好。任意一个像素p的曝光度
Figure 32494DEST_PATH_IMAGE018
计算如下公式。
Figure 964678DEST_PATH_IMAGE019
Figure 309072DEST_PATH_IMAGE020
时,其中,
Figure 134945DEST_PATH_IMAGE021
;其中,
Figure 375434DEST_PATH_IMAGE022
表示
Figure 591651DEST_PATH_IMAGE023
类像素的参考曝光值。
Figure 67632DEST_PATH_IMAGE024
表 示
Figure 623378DEST_PATH_IMAGE023
类像素的参考标准差,可分别设置为32,64,32。像素的灰度值越接近其参考曝光值, 表明该像素曝光越好。通常情况下,当
Figure 831506DEST_PATH_IMAGE025
时,表示像素p曝光良好;否则,像素p 曝光不足,需要扩大像素p的灰度值。
最后,根据像素的曝光度,对当前帧源图像序列进行灰度变换,扩大欠曝光像素的灰度值,计算方式如下所示。
Figure 597337DEST_PATH_IMAGE026
,当
Figure 486795DEST_PATH_IMAGE020
时,其中,
Figure 224944DEST_PATH_IMAGE027
;其中,
Figure 666290DEST_PATH_IMAGE028
表示像素p扩大之后的像素值。
Figure 60362DEST_PATH_IMAGE029
表示扩大因子,
Figure 550249DEST_PATH_IMAGE029
计算方式如 下公式。
Figure 939642DEST_PATH_IMAGE030
=
Figure 692834DEST_PATH_IMAGE031
Figure 370941DEST_PATH_IMAGE032
时,其中,
Figure 726835DEST_PATH_IMAGE033
Figure 377260DEST_PATH_IMAGE034
表示
Figure 832512DEST_PATH_IMAGE023
类像素中曝光良好的像素p的灰度值,
Figure 60231DEST_PATH_IMAGE035
表示
Figure 95183DEST_PATH_IMAGE023
类像素中欠曝光像素p的灰度值。
在本实施例中,采用谱残差理论对源图像及其亮度图像进行显著性检测,实现两幅图像的融合。
具体而言,对当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息包括:
采用如下公式对当前帧图像信息以及当前帧的亮度图像信息进行融合:
Figure 662430DEST_PATH_IMAGE001
;其中,
Figure 350901DEST_PATH_IMAGE002
表示当前帧图像信息中像素p位置处的权重,
Figure 206861DEST_PATH_IMAGE036
I为当前帧源图像序列;
Figure 842242DEST_PATH_IMAGE037
为当前帧亮度图像信息;
Figure 326313DEST_PATH_IMAGE038
表示当前帧融合图像 信息;
Figure 326630DEST_PATH_IMAGE039
其中,
Figure 528941DEST_PATH_IMAGE040
表示高斯滤波器,
Figure 968013DEST_PATH_IMAGE041
Figure 181956DEST_PATH_IMAGE042
分别表示傅里叶变换及其逆变换,
Figure 415492DEST_PATH_IMAGE043
表示n×n矩阵,矩阵中的每个元素均为1/n2
Figure 105099DEST_PATH_IMAGE044
Figure 19965DEST_PATH_IMAGE045
分别表示复数矩阵的 实数部分和虚数部分;
Figure 150732DEST_PATH_IMAGE046
表示像素p扩大之后的像素值;I(p)表示像素p的灰度值;
Figure 883065DEST_PATH_IMAGE047
为显著性图谱。
在本实施例中,对当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的前一帧的亮度图像信息包括:
获取当前帧的前一帧的图像信息中的当前帧的前一帧的图像序列;
将当前帧的前一帧的图像序列变换到灰度空间,对当前帧的前一帧的图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧的前一帧的暗类像素集合,当前帧的前一帧的中类像素集合,当前帧的前一帧的亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据所述曝光度对当前帧的前一帧的图像信息进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的前一帧的亮度图像信息。
可以理解的是,获取当前帧的亮度图像信息与获取当前帧的前一帧的亮度图像信息所用方法以及所用公式相同,在此不再赘述。
在本实施例中,通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括:
获取FCNN神经网络模型,FCNN神经网络模型包括五个池化层以及七个卷积层,其中,五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层;七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;
将当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息;
将最终输入图像信息输入至FCNN神经网络模型,以使最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理;
根据经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第一路径特征;
根据经过第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第二路径特征;
根据经过第一池化层处理后的数据、第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第三路径特征;
将第一路径特征、第二路径特征以及第三路径特征进行融合,从而获取融合图像特征。
在本实施例中,第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数;
在本实施例中,根据经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括:
对经过第三池化层处理后的数据进行4倍下采样,对经过第四池化层处理后的数据进行2倍下采样;
将经过4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将三个不同深度的预测结果进行合并从而获取第一路径特征。
在本实施例中,根据经过第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第二路径特征包括:
对经过第二池化层处理后的数据进行8倍下采样、对经过第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过8倍下采样的数据、4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将四个不同深度的预测结果进行合并从而获取第二路径特征。
在本实施例中,根据经过第一池化层处理后的数据、第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第三路径特征包括:
对经过第一池化层处理后的数据进行16倍下采样、经过第二池化层处理后的数据进行8倍下采样、对经过第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过16倍下采样的数据、8倍下采样的数据、4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将五个不同深度的预测结果进行合并从而获取第三路径特征。
参见下表1,在本实施例中,池化层的参数包括图像尺寸参数以及通道数;卷积层的参数包括图像尺寸参数以及通道数;
第一池化层的图像尺寸参数为(M/2)×(N/2);第一池化层的通道数为64;
第二池化层的图像尺寸参数为(M/4)×(N/4);第二池化层的通道数为128;
第三池化层的图像尺寸参数为(M/8)×(N/8);第三池化层的通道数为256;
第四池化层的图像尺寸参数为(M/16)×(N/16);第四池化层的通道数为256;
第五池化层的图像尺寸参数为(M/32)×(N/32);第五池化层的通道数为512;
第六卷积层的图像尺寸参数为4096×(M/32)×(N/32);第六卷积层的通道数为512;
第七卷积层的图像尺寸参数为4096×(M/32)×(N/32);第七卷积层的通道数为512。
可以理解的是,其他卷积层可以根据自身需要而自行设定图像尺寸参数以及通道数。
表1:
Figure 669756DEST_PATH_IMAGE048
本申请设计了端到端视觉里程计算法获得估计位姿。首先,为了更好地提取图像序列的特征信息,本申请设计了跳跃-融合-FCNN网络框架。通过3条不同的路径获得图像序列在不同步长下的特征信息,同时考虑了图像的细节信息和结构信息,并通过融合思想将3条路径的特征信息进行合并。其次,本发明采用基于LSTM的循环神经网络对特征信息之间的动态变化和关联进行序列化建模,进而输出估计位姿。
第一路径侧重图像的结构信息,获得的特征图谱具有鲁棒性。第三路径充分考虑了图像的细节信息,获得的特征图谱更加精细。第二路径获得的特征图谱用于平衡上述两条路径的结果。将3条路径获得的特征图谱进行合并,获得特征融合信息,作为RNN网络层的输入。
在本实施例中,根据融合图像特征获取位姿估计信息包括:
将融合图像特征输入至长短期记忆神经网络中,从而获取摄像装置的位姿估计信息。
具体而言,当前帧融合图像信息经过FCNN提取获得的当前帧特征输入到RNN网络,对特征之间的动态变化和关联进行序列化建模。长短期记忆(Long Short-Term Memory,LSTM)网络具有记忆单元和门限控制函数,能够丢弃或保留先前时刻的隐藏层状态来对更新当前时刻的隐藏层状态,进而输出当前时刻的估计位姿。LSTM使得RNN网络具有记忆功能和较强的学习能力。
t-1时刻,LSTM的隐藏层状态记为h t-1,记忆单元记为c t-1。假设在t时刻,输入为x t ,则更新后的隐藏层状态和记忆单元定义为,
Figure 185050DEST_PATH_IMAGE049
Figure 763799DEST_PATH_IMAGE050
其中,sigmoid和tanh是两个激活函数,W表示相应的权重矩阵,b表示偏置向量。
LSTM网络包含LSTM1和LSTM2两个网络层,LSTM1的隐藏层状态作为LSTM2的输入。每个LSTM网络层含有1000个隐藏单元,输出当前时刻对应的估计位姿,即一个6自由度的位姿向量。
参数优化
根据位姿坐标平移距离变化和方向变化,定义网络的损失函数如下,
Figure 276820DEST_PATH_IMAGE051
其中,N表示样本数据集中图像序列的数目,
Figure 613124DEST_PATH_IMAGE052
Figure 994426DEST_PATH_IMAGE053
分别表示第i个序 列中第j个时刻的图像相对于上一时刻图像的估计位姿和真实位姿。
Figure 303048DEST_PATH_IMAGE054
表示矩阵的2 范数计算。
Figure 49287DEST_PATH_IMAGE055
是一个常数。
因此,视觉里程计的位姿估计转化为求解最优网络参数
Figure 935204DEST_PATH_IMAGE056
,最终即可获得摄像装 置的位姿估计信息。
本申请还提供了一种端到端视觉里程计装置,端到端视觉里程计装置包括图像获取模块、灰度变换处理模块、融合模块、特征提取模块以及位姿估计模块,其中,图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;融合模块用于对当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息以及对当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;特征提取模块用于通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;位姿估计模块用于根据融合图像特征获取摄像装置的位姿估计信息。
可以理解的是,上述对方法的描述,也同样适用于对装置的描述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的基于图像融合和FCNN-LSTM的端到端视觉里程计方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的端到端视觉里程计方法。
图2是能够实现根据本申请一个实施例提供的端到端视觉里程计方法的电子设备的示例性结构图。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的端到端视觉里程计方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的基于图像融合和FCNN-LSTM的端到端视觉里程计方法。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种端到端视觉里程计方法,用于获取车辆上的摄像装置的位姿估计信息,其特征在于,所述端到端视觉里程计方法包括:
获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;
分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;
对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息;
对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;
通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;
根据所述融合图像特征获取摄像装置的位姿估计信息;其中,
对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息包括:
采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合:
Figure DEST_PATH_IMAGE001
;其中,
Figure DEST_PATH_IMAGE002
表示当前帧图像信息中像素p位置处的权重,
Figure DEST_PATH_IMAGE003
I为当 前帧源图像序列;
Figure DEST_PATH_IMAGE004
为当前帧亮度图像信息;
Figure DEST_PATH_IMAGE005
表示当前帧融合图像信息;
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
表示高斯滤波器,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别表示傅里叶变换及其逆变换,
Figure DEST_PATH_IMAGE010
表 示n×n矩阵,矩阵中的每个元素均为1/n2
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
分别表示复数矩阵的实数部分 和虚数部分;
Figure DEST_PATH_IMAGE013
为显著性图谱;
所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括:
获取FCNN神经网络模型,所述FCNN神经网络模型包括五个池化层以及七个卷积层,其中,所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层;所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;
将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息;
将所述最终输入图像信息输入至所述FCNN神经网络模型,以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理;
根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征;
根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征;
根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征;
将所述第一路径特征、第二路径特征以及第三路径特征进行融合,从而获取所述融合图像特征。
2.如权利要求1所述的端到端视觉里程计方法,其特征在于,所述对当前帧图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息包括:
获取当前帧图像信息中的当前帧源图像序列;
将当前帧源图像序列变换到灰度空间,对当前帧图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧暗类像素集合,当前帧中类像素集合,当前帧亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据所述曝光度对当前帧源图像序列进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的亮度图像信息;
所述对当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的前一帧的亮度图像信息包括:
获取当前帧的前一帧的图像信息中的当前帧的前一帧的图像序列;
将当前帧的前一帧的图像序列变换到灰度空间,对当前帧的前一帧的图像信息的各个像素进行集合划分,从而将各个像素分成三组集合,所述三组集合包括当前帧的前一帧的暗类像素集合,当前帧的前一帧的中类像素集合,当前帧的前一帧的亮类像素集合;
计算各组集合中的各个像素点的曝光度;
根据所述曝光度对当前帧的前一帧的图像信息进行灰度变换,扩大欠曝光像素的灰度值,从而获取当前帧的前一帧的亮度图像信息。
3.如权利要求2所述的端到端视觉里程计方法,其特征在于,所述第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数;
所述根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括:
对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将三个不同深度的预测结果进行合并从而获取第一路径特征。
4.如权利要求3所述的端到端视觉里程计方法,其特征在于,所述根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征包括:
对经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将四个不同深度的预测结果进行合并从而获取第二路径特征。
5.如权利要求4所述的端到端视觉里程计方法,其特征在于,所述根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征包括:
对经过所述第一池化层处理后的数据进行16倍下采样、经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样,对经过所述第四池化层处理后的数据进行2倍下采样;
将经过所述16倍下采样的数据、所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算,逐数据相加,将五个不同深度的预测结果进行合并从而获取第三路径特征。
6.如权利要求5所述的端到端视觉里程计方法,其特征在于,所述池化层的参数包括图像尺寸参数以及通道数;所述卷积层的参数包括图像尺寸参数以及通道数;
所述第一池化层的图像尺寸参数为(M/2)×(N/2);所述第一池化层的通道数为64;
所述第二池化层的图像尺寸参数为(M/4)×(N/4);所述第二池化层的通道数为128;
所述第三池化层的图像尺寸参数为(M/8)×(N/8);所述第三池化层的通道数为256;
所述第四池化层的图像尺寸参数为(M/16)×(N/16);所述第四池化层的通道数为256;
所述第五池化层的图像尺寸参数为(M/32)×(N/32);所述第五池化层的通道数为512;
所述第六卷积层的图像尺寸参数为4096×(M/32)×(N/32);所述第六卷积层的通道数为512;
所述第七卷积层的图像尺寸参数为4096×(M/32)×(N/32);所述第七卷积层的通道数为512。
7.如权利要求6所述的端到端视觉里程计方法,其特征在于,所述根据所述融合图像特征获取位姿估计信息包括:
将所述融合图像特征输入至长短期记忆神经网络中,从而获取摄像装置的位姿估计信息。
8.一种端到端视觉里程计装置,用于实现如权利要求1至7中任意一项所述的端到端视觉里程计方法,其特征在于,所述端到端视觉里程计装置包括:
图像获取模块,所述图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息;
灰度变换处理模块,所述灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理,从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息;
融合模块,所述融合模块用于对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息以及对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合,从而获取当前帧的前一帧的融合图像信息;
特征提取模块,所述特征提取模块用于通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征;
位姿估计模块,所述位姿估计模块用于根据所述融合图像特征获取摄像装置的位姿估计信息;其中,
对所述当前帧图像信息以及当前帧的亮度图像信息进行融合,从而获取当前帧融合图像信息包括:
采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合:
Figure 164883DEST_PATH_IMAGE001
;其中,
Figure 987083DEST_PATH_IMAGE002
表示当前帧图像信息中像素p位置处的权重,
Figure 297979DEST_PATH_IMAGE003
I为当 前帧源图像序列;
Figure 834133DEST_PATH_IMAGE004
为当前帧亮度图像信息;
Figure 179664DEST_PATH_IMAGE005
表示当前帧融合图像信息;
Figure 267706DEST_PATH_IMAGE006
其中,
Figure 941264DEST_PATH_IMAGE007
表示高斯滤波器,
Figure 671322DEST_PATH_IMAGE008
Figure 481147DEST_PATH_IMAGE009
分别表示傅里叶变换及其逆变换,
Figure 5669DEST_PATH_IMAGE010
表 示n×n矩阵,矩阵中的每个元素均为1/n2
Figure 25577DEST_PATH_IMAGE011
Figure 670579DEST_PATH_IMAGE012
分别表示复数矩阵的实数部分 和虚数部分;
Figure 725122DEST_PATH_IMAGE013
为显著性图谱;
所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括:
获取FCNN神经网络模型,所述FCNN神经网络模型包括五个池化层以及七个卷积层,其中,所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层;所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层;
将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息;
将所述最终输入图像信息输入至所述FCNN神经网络模型,以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理;
根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征;
根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征;
根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征;
将所述第一路径特征、第二路径特征以及第三路径特征进行融合,从而获取所述融合图像特征。
CN202211269544.9A 2022-10-18 2022-10-18 一种端到端视觉里程计方法及装置 Active CN115358962B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211269544.9A CN115358962B (zh) 2022-10-18 2022-10-18 一种端到端视觉里程计方法及装置
PCT/CN2023/091529 WO2024082602A1 (zh) 2022-10-18 2023-04-28 一种端到端视觉里程计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211269544.9A CN115358962B (zh) 2022-10-18 2022-10-18 一种端到端视觉里程计方法及装置

Publications (2)

Publication Number Publication Date
CN115358962A CN115358962A (zh) 2022-11-18
CN115358962B true CN115358962B (zh) 2023-01-10

Family

ID=84007720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211269544.9A Active CN115358962B (zh) 2022-10-18 2022-10-18 一种端到端视觉里程计方法及装置

Country Status (2)

Country Link
CN (1) CN115358962B (zh)
WO (1) WO2024082602A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358962B (zh) * 2022-10-18 2023-01-10 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246147A (zh) * 2019-05-14 2019-09-17 中国科学院深圳先进技术研究院 视觉惯性里程计方法、视觉惯性里程计装置及移动设备
CN111080699A (zh) * 2019-12-11 2020-04-28 中国科学院自动化研究所 基于深度学习的单目视觉里程计方法及系统
CN111127557A (zh) * 2019-12-13 2020-05-08 中国电子科技集团公司第二十研究所 一种基于深度学习的视觉slam前端位姿估计方法
CN114612556A (zh) * 2022-03-01 2022-06-10 北京市商汤科技开发有限公司 视觉惯性里程计模型的训练方法、位姿估计方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426782B (zh) * 2017-08-29 2023-09-19 北京三星通信技术研究有限公司 对象检测方法和用于对象检测的神经网络系统
US11288818B2 (en) * 2019-02-19 2022-03-29 The Trustees Of The University Of Pennsylvania Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning
CN112648994B (zh) * 2020-12-14 2023-12-05 首都信息发展股份有限公司 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN115358962B (zh) * 2022-10-18 2023-01-10 中国第一汽车股份有限公司 一种端到端视觉里程计方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246147A (zh) * 2019-05-14 2019-09-17 中国科学院深圳先进技术研究院 视觉惯性里程计方法、视觉惯性里程计装置及移动设备
CN111080699A (zh) * 2019-12-11 2020-04-28 中国科学院自动化研究所 基于深度学习的单目视觉里程计方法及系统
CN111127557A (zh) * 2019-12-13 2020-05-08 中国电子科技集团公司第二十研究所 一种基于深度学习的视觉slam前端位姿估计方法
CN114612556A (zh) * 2022-03-01 2022-06-10 北京市商汤科技开发有限公司 视觉惯性里程计模型的训练方法、位姿估计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的视觉里程计方法综述;职恒辉等;《计算机工程与应用》;20220715;全文 *

Also Published As

Publication number Publication date
CN115358962A (zh) 2022-11-18
WO2024082602A1 (zh) 2024-04-25

Similar Documents

Publication Publication Date Title
Li et al. Survey of single image super‐resolution reconstruction
US10580120B2 (en) Image filtering based on image gradients
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110781756A (zh) 基于遥感图像的城市道路提取方法及装置
CN111079764B (zh) 一种基于深度学习的低照度车牌图像识别方法及装置
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN112288628B (zh) 基于光流跟踪和抽帧映射的航拍图像拼接加速方法及系统
CN112581379A (zh) 图像增强方法以及装置
Wang et al. MAGAN: Unsupervised low-light image enhancement guided by mixed-attention
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN116486288A (zh) 基于轻量级密度估计网络的航拍目标计数与检测方法
CN115358962B (zh) 一种端到端视觉里程计方法及装置
CN115493612A (zh) 一种基于视觉slam的车辆定位方法及装置
CN113344820B (zh) 图像处理方法及装置、计算机可读介质、电子设备
CN113393385B (zh) 基于多尺度融合的无监督去雨方法、系统、装置及介质
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
Liu et al. A shadow imaging bilinear model and three-branch residual network for shadow removal
Wang et al. A multi-scale attentive recurrent network for image dehazing
Lee et al. A design of image dehazing engine using DTE and DAE techniques
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质
CN111008555B (zh) 一种无人机图像弱小目标增强提取方法
Cahill et al. Exploring the Viability of Bypassing the Image Signal Processor for CNN-Based Object Detection in Autonomous Vehicles
CN111967292A (zh) 一种轻量级的sar图像船只检测方法
CN114372944B (zh) 一种多模态和多尺度融合的候选区域生成方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant