CN110889361A - 基于图像序列的orb特征视觉里程计学习方法和装置 - Google Patents

基于图像序列的orb特征视觉里程计学习方法和装置 Download PDF

Info

Publication number
CN110889361A
CN110889361A CN201911144014.XA CN201911144014A CN110889361A CN 110889361 A CN110889361 A CN 110889361A CN 201911144014 A CN201911144014 A CN 201911144014A CN 110889361 A CN110889361 A CN 110889361A
Authority
CN
China
Prior art keywords
key
images
feature
data set
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911144014.XA
Other languages
English (en)
Inventor
付莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingpu Technology Co Ltd
Original Assignee
Beijing Yingpu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingpu Technology Co Ltd filed Critical Beijing Yingpu Technology Co Ltd
Priority to CN201911144014.XA priority Critical patent/CN110889361A/zh
Publication of CN110889361A publication Critical patent/CN110889361A/zh
Priority to US17/778,414 priority patent/US20220398746A1/en
Priority to PCT/CN2020/130052 priority patent/WO2021098766A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于图像序列的ORB特征视觉里程计学习方法和装置,该方法摄录图像将所得到的若干图像构成原始数据集;对原始数据集中的图像进行ORB特征提取,实现对于第一关键特征的提取;通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;将对原始数据集中所提取出的第一关键特征和第二关键特征输入至多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。该申请通过ORB的特征提取,是由FAST特征和Brief描述子组成,是初始预处理步骤,从图像序列中提取丰富的第一关键特征,然后使用跟踪算法来跟踪连续帧中的这些特征,以此产生来自图像序列的光流估计。

Description

基于图像序列的ORB特征视觉里程计学习方法和装置
技术领域
本申请涉及轨迹测距技术领域,特别是涉及一种基于图像序列的ORB特征视觉里程计学习方法和装置。
背景技术
视觉里程计(VO)是通过车载摄像头或移动机器人的运动所引起的图像的变化,以逐步估计车辆姿态的过程。视觉里程计是一个很重要的同步定位与建图(SLAM)特性,其依靠视觉传感器,从几个相邻图像中,希望测量一个运动物体的轨迹。但通常,视觉里程计只关心局部时间上的运动,多数时候是指两个时刻间的运动,在以某种间隔对时间进行采样时,就可以估计物体在各时间间隔之内的运动,但是这个估计受噪声的影响,一旦先前时刻的估计存在误差,那么就会在之后的运动上会累加,这个情况被称为漂移,是评价slam的一个重要指标。视觉里程计的主要方式分为特征点法和直接方法,其中特征点法比较主流,可以在噪声较大,相机运动较快时工作。
现有的与深度学习结合的视觉里程计方法,如基于非监督深度学习的单目视觉里程计(UnDeepVO),该模型的提出主要有2个突出的特点:一是非监督的深度学习策略,二是可以计算绝对的尺度。UnDeepVO是一个单目的SLAM系统,用连续的单目影像测试,但是,在训练的时候输入是立体影像对获取的尺度来训练UnDeepVO,它的损失函数是基于时空的密集数据来定义的,模型由一个位姿估计器和一个深度估计器组成,它们的输入都是连续的单目影像,分别输出6-DoF的位姿值和深度值。位姿估计器是一个基于VGG的卷积神经网络,输入两张序列单目影像来预测它们之间6个自由度的转换。在最后一个卷积层后用两个有完全连接层的单独集来分开平移和旋转参数。引入权重归一化旋转和平移,从而得到更好的预测值。深度估计器主要是基于编码-解码来得到密集的深度图。关于利用影像视差(逆深度)的深度估计方法,他们采用直接预测深度图的方式来训练。
目前的这些方法无法以高效的方式回归测距,并且在解决视觉漂移方面,平均漂移结果不够优秀。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于图像序列的ORB特征视觉里程计学习方法,包括:
摄录图像并将所得到的若干图像构成原始数据集;
对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
优选地,对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取,包括:
使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征。
优选地,在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
优选地,摄录图像并将所得到的若干图像构成原始数据集,包括:
采用两组相机同时摄录待观测的图像,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集。
优选地,通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
优选地,将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
根据本申请的另一个方面,还提供了一种基于图像序列的ORB特征视觉里程计学习装置,包括:
图像获取模块,其配置成通过相机摄录图像并将所得到的若干图像构成原始数据集;
ORB特征提取模块,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
卷积神经网络训练模块,其配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
长短时记忆网络训练模块,其配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
优选地,在ORB特征提取模块中,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取,包括:
使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征;
在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
优选地,图像获取模块中配置有两组相机,两组相机中设置的摄录机构对应相同,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集,卷积神经网络训练模块配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
优选地,长短时记忆网络训练模块配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行如上所述的方法。
本申请所提供的技术方案,能够从连续的图像序列中提取丰富的特征,并随着关键帧队列的特征输入以跟踪这些特征,再通过选择合适的卷积神经网络架构,减小输入特征的维数,提取运动信息输出到多层的长短时记忆网络,通过训练实现对于视觉里程计的估计,输出运动物体的位姿估计。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于图像序列的ORB特征视觉里程计学习方法流程图;
图2是根据本申请另一个实施例的基于图像序列的ORB特征视觉里程计学习装置结构图;
图3是根据本申请另一个实施例的计算设备结构图;
图4是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
图1是根据本申请一个实施例的基于图像序列的ORB特征视觉里程计学习方法流程图。参见图1,该基于图像序列的ORB特征视觉里程计学习方法,包括:
101:摄录图像并将所得到的若干图像构成原始数据集;
102:对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
103:通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
104:将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
ORB的特征提取,是由FAST特征和Brief描述子组成,是初始预处理步骤,从图像序列中提取丰富的第一关键特征,然后使用跟踪算法来跟踪连续帧中的这些特征,以此产生来自图像序列的光流估计。
具体说来,是使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征。在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
优选地,摄录图像并将所得到的若干图像构成原始数据集,包括:采用两组相机同时摄录待观测的图像,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集。
优选地,通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
优选地,将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
图2是根据本申请另一个实施例的基于图像序列的ORB特征视觉里程计学习装置结构图。参见图2,该基于图像序列的ORB特征视觉里程计装置,包括:
图像获取模块201,其配置成通过相机摄录图像并将所得到的若干图像构成原始数据集;
ORB特征提取模块202,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
卷积神经网络训练模块203,其配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
长短时记忆网络训练模块204,其配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
优选地,在ORB特征提取模块202中,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取,包括:
使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征;
在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
优选地,图像获取模块201中配置有两组相机,两组相机中设置的摄录机构对应相同,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集,卷积神经网络训练模块203配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
优选地,长短时记忆网络训练模块204配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图4,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于图像序列的ORB特征视觉里程计学习方法,包括:
摄录图像并将所得到的若干图像构成原始数据集;
对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
2.根据权利要求1所述的基于图像序列的ORB特征视觉里程计学习方法,其特征在于,对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取,包括:
使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征。
3.根据权利要求2所述的基于图像序列的ORB特征视觉里程计学习方法,其特征在于,在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
4.根据权利要求1所述的基于图像序列的ORB特征视觉里程计学习方法,其特征在于,摄录图像并将所得到的若干图像构成原始数据集,包括:
采用两组相机同时摄录待观测的图像,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集。
5.根据权利要求4所述的基于图像序列的ORB特征视觉里程计学习方法,其特征在于,通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
6.根据权利要求5所述的基于图像序列的ORB特征视觉里程计学习方法,其特征在于,将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
7.一种基于图像序列的ORB特征视觉里程计学习装置,包括:
图像获取模块,其配置成通过相机摄录图像并将所得到的若干图像构成原始数据集;
ORB特征提取模块,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取;
卷积神经网络训练模块,其配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征;
长短时记忆网络训练模块,其配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计。
8.根据权利要求7所述的基于图像序列的ORB特征视觉里程计学习装置,其特征在于,在ORB特征提取模块中,其配置成对所述原始数据集中的图像进行ORB特征提取,用于实现对于第一关键特征的提取,包括:
使用FAST检测输入图像中的关键点生成FAST特征点,然后根据Harris角点检测算子从图像中选取若干个点,再使用Brief描述子生成算法进行的抗噪性和旋转不变性的改进,最终根据时间戳排列所述原始数据集中的图像的序列,并通过ORB检测器从排序好的图像中的连续关键帧里提取所述第一关键特征;
在排列好的图像序列中提取出所述第一关键特征后,采用Lucas-Kanade光流观察所述ORB特征提取的过程,进一步筛选出符合图像关键点的第一关键特征。
9.根据权利要求7所述的基于图像序列的ORB特征视觉里程计学习装置,其特征在于,图像获取模块中配置有两组相机,两组相机中设置的摄录机构对应相同,并按时刻将两组相机摄录的图像进行配对后进行有序排列,构成所述原始数据集,卷积神经网络训练模块配置成通过卷积神经网络对原始数据集中的连续图像进行特征提取并进行匹配,从顺序图像中提取丰富的第二关键特征,包括:
所述卷积神经网络的体系结构采用类FlowNetCorr结构的向下卷积层,将所述原始数据集中的一对图片分开处理,分别进入卷积层提取各自的特征,然后再对这一对图片中的特征进行匹配,依序不断从连续图像中提取运动信息,提取出所述第二关键特征。
10.根据权利要求7所述的基于图像序列的ORB特征视觉里程计学习装置,其特征在于,长短时记忆网络训练模块配置成将对原始数据集中所提取出的第一关键特征和第二关键特征输入至堆叠的多层长短时记忆网络进行训练学习,最终生成输出对于视觉里程计的估计,包括:
所述多层长短时记忆网络中包括多个LSTM层,每一LSTM层中设置有遗忘门,遗忘门的偏置参数随机初始化,每一LSTM层中使用的激活函数采用的线性激活函数,每一LSTM层中还包括一个用于防止梯度消失的存储单元,综合第一关键特征和第二关键特征,使用来自先前状态的位姿信息预测在当前状态下的位姿信息,进而对于视觉里程计的估计。
CN201911144014.XA 2019-11-20 2019-11-20 基于图像序列的orb特征视觉里程计学习方法和装置 Pending CN110889361A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911144014.XA CN110889361A (zh) 2019-11-20 2019-11-20 基于图像序列的orb特征视觉里程计学习方法和装置
US17/778,414 US20220398746A1 (en) 2019-11-20 2020-11-19 Learning method and device for visual odometry based on orb feature of image sequence
PCT/CN2020/130052 WO2021098766A1 (zh) 2019-11-20 2020-11-19 基于图像序列的orb特征视觉里程计学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911144014.XA CN110889361A (zh) 2019-11-20 2019-11-20 基于图像序列的orb特征视觉里程计学习方法和装置

Publications (1)

Publication Number Publication Date
CN110889361A true CN110889361A (zh) 2020-03-17

Family

ID=69748133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911144014.XA Pending CN110889361A (zh) 2019-11-20 2019-11-20 基于图像序列的orb特征视觉里程计学习方法和装置

Country Status (3)

Country Link
US (1) US20220398746A1 (zh)
CN (1) CN110889361A (zh)
WO (1) WO2021098766A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115786A (zh) * 2020-08-13 2020-12-22 北京工商大学 基于注意力U-net的单目视觉里程计方法
WO2021098766A1 (zh) * 2019-11-20 2021-05-27 北京影谱科技股份有限公司 基于图像序列的orb特征视觉里程计学习方法和装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379803B (zh) * 2021-07-07 2024-02-02 上海谦尊升网络科技有限公司 一种基于视觉图像的定位方法
CN113834463B (zh) * 2021-09-01 2024-08-27 重庆邮电大学 基于绝对尺寸的智能车侧方行人/车单目深度测距方法
CN113838135B (zh) * 2021-10-11 2024-03-19 重庆邮电大学 基于lstm双流卷积神经网络的位姿估计方法、系统及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322009A (zh) * 2019-07-19 2019-10-11 南京梅花软件系统股份有限公司 基于多层卷积长短时记忆神经网络的图像预测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140140573A1 (en) * 2012-11-21 2014-05-22 Gravity Jack, Inc. Pose Tracking through Analysis of an Image Pyramid
US10013765B2 (en) * 2016-08-19 2018-07-03 Mitsubishi Electric Research Laboratories, Inc. Method and system for image registrations
US20180068459A1 (en) * 2016-09-08 2018-03-08 Ford Global Technologies, Llc Object Distance Estimation Using Data From A Single Camera
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
US10593060B2 (en) * 2017-04-14 2020-03-17 TwoAntz, Inc. Visual positioning and navigation device and method thereof
CN109708658B (zh) * 2019-01-14 2020-11-24 浙江大学 一种基于卷积神经网络的视觉里程计方法
CN109934857B (zh) * 2019-03-04 2021-03-19 大连理工大学 一种基于卷积神经网络与orb特征的回环检测方法
CN110889361A (zh) * 2019-11-20 2020-03-17 北京影谱科技股份有限公司 基于图像序列的orb特征视觉里程计学习方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322009A (zh) * 2019-07-19 2019-10-11 南京梅花软件系统股份有限公司 基于多层卷积长短时记忆神经网络的图像预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KARTHIK SIVARAMA KRISHNAN,FERAT SAHIN: ""ORBDeepOdometry - A Feature-Based Deep Learning Approach to Monocular Visual Odometry"", 《2019 14TH SOSE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098766A1 (zh) * 2019-11-20 2021-05-27 北京影谱科技股份有限公司 基于图像序列的orb特征视觉里程计学习方法和装置
CN112115786A (zh) * 2020-08-13 2020-12-22 北京工商大学 基于注意力U-net的单目视觉里程计方法
CN112115786B (zh) * 2020-08-13 2024-08-13 北京工商大学 基于注意力U-net的单目视觉里程计方法

Also Published As

Publication number Publication date
US20220398746A1 (en) 2022-12-15
WO2021098766A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN110889361A (zh) 基于图像序列的orb特征视觉里程计学习方法和装置
D'Avino et al. Autoencoder with recurrent neural networks for video forgery detection
US10782688B2 (en) Method, control apparatus, and system for tracking and shooting target
CN108470332B (zh) 一种多目标跟踪方法及装置
CN107341442A (zh) 运动控制方法、装置、计算机设备和服务机器人
CN105590091B (zh) 一种面部识别方法及其系统
US11042991B2 (en) Determining multiple camera positions from multiple videos
CN109084746A (zh) 用于具有辅助传感器的自主平台引导系统的单目模式
CN111402294A (zh) 目标跟踪方法、装置、计算机可读存储介质和计算机设备
US20120294536A1 (en) Pixel analysis and frame alignment for background frames
CN107133969A (zh) 一种基于背景反投影的移动平台运动目标检测方法
US11113838B2 (en) Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
JP6551226B2 (ja) 情報処理システム、情報処理方法及びプログラム
CN110619264B (zh) 基于UNet++的微地震有效信号识别方法及装置
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN111402237A (zh) 基于时空级联自编码器的视频图像异常检测方法及系统
CN111914878A (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN113643330B (zh) 一种基于动态语义特征的目标跟踪方法及系统
KR20210040604A (ko) 행위 인식 방법 및 장치
CN110866458A (zh) 基于三维卷积神经网络的多人动作检测与识别方法与装置
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
Yoon et al. Object-centric scene understanding for image memorability prediction
CN112084852B (zh) 一种基于数据融合的人体轨迹相似行为识别方法
Jia et al. Mobile golf swing tracking using deep learning with data fusion
Mante et al. A survey on video-based evidence analysis and digital forensic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317

RJ01 Rejection of invention patent application after publication