CN109798888B - 移动设备的姿态确定装置、方法和视觉里程计 - Google Patents
移动设备的姿态确定装置、方法和视觉里程计 Download PDFInfo
- Publication number
- CN109798888B CN109798888B CN201910199169.7A CN201910199169A CN109798888B CN 109798888 B CN109798888 B CN 109798888B CN 201910199169 A CN201910199169 A CN 201910199169A CN 109798888 B CN109798888 B CN 109798888B
- Authority
- CN
- China
- Prior art keywords
- historical
- coding information
- information
- current
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种移动设备的姿态确定装置、方法和视觉里程计。该装置包括一个或多个处理器,处理器被配置为:获取移动设备拍摄的视频流中当前帧与上一帧之间的图像差别特征;根据图像差别特征,利用第一机器学习模型,获取当前编码信息;根据当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定移动设备的姿态。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种移动设备的姿态确定装置、移动设备的姿态方法、视觉里程计和计算机可读存储介质。
背景技术
视觉里程计能够通过分析处理相关图像序列,确定机器人的位置和姿态,进而记录机器人行驶的整个轨迹。
在相关技术中,视觉里程计将视频流中相邻帧的图像信息联合起来,基于图像的几何特征利用局部地图优化确定对应帧的相机姿态;或者基于IMU(Inertial measurementunit,惯性测量单元)提供的信息,确定相机姿态。
发明内容
根据本公开实施例的第一方面,提供了一种移动设备的姿态确定装置,包括一个或多个处理器,所述处理器被配置为:获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征;根据所述图像差别特征,利用第一机器学习模型,获取当前编码信息;根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,所述当前帧为第M帧,M为大于1的正整数;在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,存储第N帧的编码信息作为所述历史编码信息,N为小于M的正整数。
在一些实施例中,根据所述当前编码信息的各通道分量之间的相关性,对所述当前编码信息的各通道分量进行融合,得到融合后的当前编码信息;根据所述历史编码信息的各通道分量之间的相关性,对所述历史编码信息的各通道分量进行融合,得到融合后的历史编码信息;根据所述融合后的当前编码信息和所述融合后的历史编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,根据所述当前编码信息各通道分量之间的相关性,确定所述各通道分量的第一权重;根据所述第一权重,对所述各通道分量进行加权,得到所述融合后的当前编码信息。
在一些实施例中,根据每个历史编码信息的各通道分量之间的相关性,确定所述各通道分量的第二权重;根据所述第二权重,对所述各通道分量进行加权,得到所述融合后的历史编码信息。
在一些实施例中,根据各历史编码信息之间的相关性,对所述各历史编码信息进行融合,得到综合历史编码信息;根据所述综合历史编码信息和所述当前编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,根据各历史编码信息之间的相关性,确定所述各历史编码信息的第三权重;根据所述第三权重,对所述各历史编码信息进行加权求和,得到所述综合历史编码信息。
在一些实施例中,将所述当前编码信息和所述历史编码信息,按照通道维度方向拼接,生成输出编码信息;根据所述输出编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,所述图像差别特征通过光流网络模型获取;所述第一机器学习模型和所述第二机器学习模型中的至少一个为ConvLSTM(Convolutional Long Short-Term Memory Network,卷积长短期记忆网络)模型。
根据本公开实施例的第二方面,提供了一种移动设备的姿态确定方法,包括:获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征;根据所述图像差别特征,利用第一机器学习模型,获取当前编码信息;根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,所述当前帧为第M帧,M为大于1的正整数;在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,存储第N帧的编码信息作为所述历史编码信息,N为小于M的正整数。
在一些实施例中,根据所述当前编码信息的各通道分量之间的相关性,对所述当前编码信息的各通道分量进行融合,得到融合后的当前编码信息;根据所述历史编码信息的各通道分量之间的相关性,对所述历史编码信息的各通道分量进行融合,得到融合后的历史编码信息;根据所述融合后的当前编码信息和所述融合后的历史编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,根据所述当前编码信息各通道分量之间的相关性,确定所述各通道分量的第一权重;根据所述第一权重,对所述各通道分量进行加权,得到所述融合后的当前编码信息。
在一些实施例中,根据每个历史编码信息的各通道分量之间的相关性,确定所述各通道分量的第二权重;根据所述第二权重,对所述各通道分量进行加权,得到所述融合后的所述历史编码信息。
在一些实施例中,所述至少一个历史编码信息包括多个历史编码信息,根据各历史编码信息之间的相关性,对所述各历史编码信息进行融合,得到综合历史编码信息;根据所述综合历史编码信息和所述当前编码信息,利用第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,根据各历史编码信息之间的相关性,确定所述各历史编码信息的第三权重;根据所述第三权重,对所述各历史编码信息进行加权求和,得到所述综合历史编码信息。
在一些实施例中,将所述当前编码信息和所述历史编码信息,按照通道维度方向拼接,生成输出编码信息;根据所述输出编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
在一些实施例中,所述图像差别特征通过光流网络模型获取;所述第一机器学习模型和所述第二机器学习模型中的至少一个为ConvLSTM模型。
根据本公开实施例的第三方面,提供了一种视觉里程计,包括:如前述任一实施例所述的姿态确定装置,用于根据移动设备拍摄的视频流确定所述移动设备的姿态。
在一些实施例中,所述的视觉里程计还包括图像传感器,用于获取所述视频流。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的姿态确定方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是示出根据本公开一个实施例的移动设备的姿态确定方法的流程图;
图2a是示出根据本公开一个实施例的移动设备的姿态确定方法的示意图;
图2b是示出根据本公开一个实施例的移动设备的姿态确定方法所用的ConvLSTM的示意图;
图3是示出图1中步骤130的一个实施例的流程图;
图4是示出图3中步骤1320的一个实施例的示意图;
图5是示出图1中步骤130的另一个实施例的流程图;
图6是示出图5中步骤1321的一个实施例的示意图;
图7是示出图1中步骤130的又一个实施例的流程图;
图8是示出根据本公开一个实施例的移动设备的姿态确定装置的框图;
图9是示出用于根据本公开另一个实施例的移动设备的姿态确定装置的框图;
图10是示出根据本公开一个实施例的视觉里程计的框图。
应当明白,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外,相同或类似的参考标号表示相同或类似的构件。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置应被解释为仅仅是示例性的,而不是作为限制。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
图1是示出根据本公开一个实施例的移动设备的姿态确定方法的流程图。
如图1所示,该方法包括:步骤110,获取图像差别特征;步骤120,获取当前编码信息;和步骤130,确定移动设备的姿态。
在步骤110中,获取移动设备所得视频流中当前帧与上一帧之间的图像差别特征。
例如,移动设备可以是机器人、无人驾驶车、无人机等可以移动的平台,通过基于CCD或CMOS等图像传感器的相机拍摄图像。
例如,可以通过卷积神经网络(CNN)获取图像差别特征。
例如,可以通过光流网络(Flownet:Learning Optical Flow withConvolutional Networks)模型获取图像差别特征。
例如,可以通过光流网络(FlowNet 2.0:Evolution of Optical FlowEstimation with Deep Networks)模型获取图像差别特征。
在一些实施例中,可以将相邻两帧图像重叠起来输入光流网络模型,利用光流网络的特征提取部分提取图像差别特征。图像差别特征为高维特征,高维特征的通道数(如1024个)可以根据当前帧图像的分辨率确定。例如,光流网络模型可以对重叠后的图像进行多次卷积处理,并根据卷积处理结果提取相邻两帧图像每个像素的偏移量作为图像差别特征。
这样,可以将高维冗余的图像信息转换为高层、抽象的语义特征,解决了基于几何特征的相关技术易受环境因素(如遮挡、光照变化、动态物体等)影响的问题,从而提高了姿态确定的准确性。
在步骤120中,根据图像差别特征,利用第一机器学习模型,获取当前编码信息。例如,第一机器学习模型可以为RNN(Recurrent Neural Network,循环神经网络)模型,如ConvLSTM模型。
在一些实施例中,可以从RNN模型的历史输出中筛选出对姿态确定具有重要影响的历史编码信息(即关键帧相应的编码信息)作为有效信息,以便与当前编码信息融合,共同确定移动设备的当前姿态。例如,在移动设备从第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,确定第N帧为关键帧;存储RNN模型提取的第N帧的编码信息作为历史编码信息。
在步骤130中,根据当前编码信息和至少一个历史编码信息,利用第二机器学习模型,确定移动设备的姿态。例如,第二机器学习模型可以为RNN模型,如ConvLSTM模型。利用RNN模型对编码信息进行解码,可以确定移动设备的姿态。
这种基于当前编码信息和历史编码信息确定的当前姿态,是基于视频流的第一帧到当前帧的全局范围内,进行全局优化确定的姿态(即绝对姿态)。相比于相关技术仅基于当前帧和前一帧的局部范围内确定的局部优化姿态(即相对姿态),绝对姿态更加准确。
另外,利用ConvLSTM模型可以不必依赖于IMU提供的信息,仅依赖视觉信息即可确姿态确定态,从而降低了姿态确定成本。
图2a是示出根据本公开一个实施例的移动设备的姿态确定方法的示意图。
如图2a所示,提取的1到T时刻的当前编码信息为为x1到xT。各时刻存储的历史编码信息为S2到ST。将各时刻的当前编码信息和历史编码信息作为第一机器学习模型(如ConvLSTM)的输入,得到各时刻的输出编码信息O1到OT。将O1到OT输入第二机器学习模型(如ConvLSTM),得到各时刻的移动设备的姿态P到PT。
如图2b所示,显示了ConvLSTM的一个原理性实现。其中,Xt,ht,ot分别表示输入特征、状态变量和输出。
在一些实施例中,步骤130可以通过图2a中的步骤实现。
尽管本公开的实施例列举了ConvLSTM作为机器学习模型的一种实现,其它的机器学习模型也可以适用于本公开,例如FC-LSTM(Fully Connection LSTM)等。
如本领域技术人员所理解的,为了使得机器学习模型(例如神经网络等)具有所需的功能,在使用机器学习模型前,还包括利用多个样本,如样本图像、样本数据等对机器学习模型进行训练的步骤,将训练好的机器学习模型用于上述方法。例如,可以通过有监督的方式(样本和与样本对应的标注)训练并获得所需机器学习模型。
图3是示出图1中步骤130的一个实施例的流程图。
如图3所示,步骤130包括:步骤1310,融合当前编码信息的各通道分量;步骤1320,融合历史编码信息的各通道分量;和步骤1330,确定移动设备的姿态。
在步骤1310中,根据当前编码信息的各通道分量之间的相关性,对当前编码信息的各通道分量进行融合。
在一些实施例中,根据当前编码信息各通道分量之间的相关性,确定各通道分量的第一权重;根据第一权重,对各通道分量进行加权,得到融合后的当前编码信息。
例如,当前编码信息即为第一机器学习模型在当前时刻的输出Ot。Ot具有J个通道分量:Ot1、Ot2…OtJ。计算Ot1、Ot2…OtJ之间的相关性,并根据相关性确定Ot1、Ot2…OtJ的相应权重。对Ot1、Ot2…OtJ进行加权处理得到O’t。
这样,相当于根据当前编码信息的空间信息,对各通道分量进行选择。增大了对姿态确定重要的通道分量,减小了不重要的通道分量,从而提高了姿态确定准确性。
在步骤1320中,根据历史编码信息的各通道分量之间的相关性,对历史编码信息的各通道分量进行融合。
在一些实施例中,根据每个历史编码信息的各通道分量之间的相关性,确定各通道分量的第二权重;根据第二权重,对各通道分量进行加权,得到融合后的历史编码信息。
例如,存储的历史编码信息(有效信息)的集合为S,S中包含I个历史编码信息S1、S2…Si…SI,i为小于I的正整数。任一个Si具有J个通道分量:Si1、Si2…SiJ。计算Si1、Si2…SiJ之间的相关性,并根据相关性确定Si1、Si2…SiJ的相应权重。对Si1、Si2…SiJ进行加权处理得到S’i,这些S’i组成了融合后的历史编码信息集合S’。
这样,相当于根据历史编码信息的空间信息,对各通道分量进行选择。增大了对姿态确定重要的通道分量,减小了不重要的通道分量,从而提高了姿态确定准确性。
在步骤1330中,根据融合后的当前编码信息和历史编码信息,利用第二机器学习模型确定移动设备的姿态。
在一些实施例中,步骤1310和步骤1320没有执行顺序,也可以并行处理;还可以仅执行步骤1310或步骤1320。
图4是示出图3中步骤1320的一个实施例的示意图。
如图4所示,任一个储的历史编码信息Si具有多个通道分量。根据各通道分量之间的相关系数,利用门函数计算各通道分量的权重。对通道分量进行加权处理得到融合后的S’i。
在一些实施例中,130可以通过图3中的步骤实现。
图5是示出图1中步骤130的另一个实施例的流程图。
如图5所示,步骤130包括:步骤1321,融合各历史编码信息;和步骤1330',确定移动设备的姿态。
在步骤1321中,根据各历史编码信息之间的相关性,对各历史编码信息进行融合,得到综合历史编码信息。
在一些实施例中,根据各历史编码信息之间的相关性,确定各历史编码信息的第三权重;根据第三权重,对各历史编码信息进行加权求和,得到综合历史编码信息。
这样,利用各帧图像在时间上的连续性,基于时间信息对历史编码信息进行融合。增强了对姿态确定重要的历史编码信息,减弱了不重要的历史编码信息,从而提高了姿态确定准确性。
在一些实施例中,可以根据图2中的实施例,继续对综合历史编码信息的各通道分量进行融合;也可以先根据图2中的实施例对各历史编码信息的各通道分量进行融合得到S’,然后根据图3中的实施例对S’中的各历史编码信息进行融合。也就是说,可以对历史编码信息先进行空间上的融合,也可以先进行时间上的融合。
在步骤1330'中,根据综合历史编码信息和当前编码信息,利用第二机器学习模型确定移动设备的姿态。
图6是示出图5中步骤1321的一个实施例的示意图。
如图6所示,存储的历史编码信息的集合S包括S1、S2…Si…SI。根据S1、S2…Si…SI之间的相关系数,利用门函数计算S1、S2…Si…SI的相应权重。对S1、S2…Si…SI进行加权后得到S’1、S’2…S’i…S’I。对S’1、S’2…S’i…S’I求和得到综合历史编码信息
在一些实施例中,步骤130可以通过图7中的步骤实现。
图7是示出图1中步骤130的又一个实施例的流程图。
如图7所示,步骤130包括:步骤1322,拼接当前编码信息和历史编码信息;和步骤1330”,确定移动设备的姿态。
在步骤1322中,将当前编码信息和历史编码信息,按照通道维度方向拼接,生成输出编码信息。也就是说,以当前编码信息和历史编码信息为特征矩阵,以矩阵的每一层(即每一通道)为一个部分进行拼接。例如,可以通过具有两层卷积层(如卷积核大小为3×3,卷积步长为1)的神经网络模型进行拼接。
在一些实施例中,可以对历史编码信息、当前编码信息进行时间上和空间上的融合后再拼接。
在步骤1330”中,根据输出编码信息,利用第二机器学习模型确定移动设备的姿态。
本公开实施例提供的姿态确定方法,在公开无人驾驶数据集KITTI上进行了测试,能达到平均旋转误差不超过3度/100m,平均平移误差不超过5%。
图8是示出根据本公开一个实施例的移动设备的姿态确定装置的框图。
如图8所示,移动设备的姿态确定装置8包括一个或多个处理器81。
处理器81被配置为获取移动设备拍摄的视频流中当前帧与上一帧之间的图像差别特征。例如,图像差别特征通过光流网络模型获取。
处理器81被配置为:根据图像差别特征,利用第一机器学习模型,获取当前编码信息;根据当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定移动设备的姿态。例如,第一机器学习模型和第二机器学习模型中的至少一个为ConvLSTM模型。
在一些实施例中,姿态确定装置还包括存储器82。存储器82被配置为:在移动设备从第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,存储第N帧的编码信息作为历史编码信息。
在一些实施例中,处理器81根据当前编码信息的各通道分量之间的相关性,对当前编码信息的各通道分量进行融合。处理器81根据历史编码信息的各通道分量之间的相关性,对历史编码信息的各通道分量进行融合。处理器81根据融合后的当前编码信息和历史编码信息,利用第二机器学习模型确定移动设备的姿态。
例如,处理器81根据当前编码信息各通道分量之间的相关性,确定各通道分量的第一权重。处理器81根据第一权重,对各通道分量进行加权,得到融合后的当前编码信息。
例如,处理器81根据每个历史编码信息的各通道分量之间的相关性,确定所述各通道分量的第二权重。处理器81根据第二权重,对各通道分量进行加权,得到融合后的历史编码信息。
在一些实施例中,处理器81根据各历史编码信息之间的相关性,对各历史编码信息进行融合,得到综合历史编码信息。处理器81根据综合历史编码信息,利用第二机器学习模型确定移动设备的姿态。
例如,处理器81根据各历史编码信息之间的相关性,确定各历史编码信息的第三权重。处理器81根据第三权重,对各历史编码信息进行加权求和,得到综合历史编码信息。
在一些实施例中,处理器81将当前编码信息和历史编码信息,按照通道维度方向拼接,生成输出编码信息。处理器81根据输出编码信息,利用第二机器学习模型确定移动设备的姿态。
图9是示出用于根据本公开另一个实施例的移动设备的姿态确定装置的框图。
如图9所示,姿态确定装置可以通用计算设备的形式表现。计算机系统包括存储器910、处理器920和连接不同系统组件的总线900。
存储器910例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行显示方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器920可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线900可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间可以通过总线900连接。输入输出接口930可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口940为软盘、U盘、SD卡等外部存储设备提供连接接口。
图10是示出根据本公开一个实施例的视觉里程计的框图。
如图10所示,视觉里程计10包括上述任一个实施例中的姿态确定装置11,用于根据移动设备拍摄的视频流确定所述移动设备的姿态。
在一些实施例中,视觉里程计10还包括成像器件,例如图像传感器12,用于获取视频流。
在一些实施例中,成像器件可以通过无线,例如蓝牙、Wi-Fi等方式与姿态确定装置11中的处理器通讯连接;也可以通过有线,例如网线、线缆、走线等与姿态确定装置11中的处理器通讯连接。
至此,已经详细描述了本公开的各种实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。
Claims (19)
1.一种移动设备的姿态确定装置,包括一个或多个处理器,所述处理器被配置为:
获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征;
根据所述图像差别特征,利用第一机器学习模型,获取当前编码信息;
根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态;
其中,所述当前编码信息根据当前的图像差别特征确定,所述历史编码信息根据历史的图像差别特征确定;
所述根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态包括:
根据所述当前编码信息的各通道分量之间的相关性,对所述当前编码信息的各通道分量进行融合,得到融合后的当前编码信息;
根据所述历史编码信息的各通道分量之间的相关性,对所述历史编码信息的各通道分量进行融合,得到融合后的历史编码信息;
根据所述融合后的当前编码信息和所述融合后的历史编码信息,利用第二机器学习模型确定所述移动设备的姿态。
2.根据权利要求1所述的姿态确定装置,其中,所述当前帧为第M帧,M为大于1的正整数;
所述姿态确定装置还包括存储器,所述存储器被配置为:
在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,存储第N帧的编码信息作为所述历史编码信息,N为小于M的正整数。
3.根据权利要求1所述的姿态确定装置,其中,对所述当前编码信息的各通道分量进行融合包括:
根据所述当前编码信息各通道分量之间的相关性,确定所述各通道分量的第一权重;
根据所述第一权重,对所述各通道分量进行加权,得到所述融合后的当前编码信息。
4.根据权利要求1所述的姿态确定装置,其中,对所述历史编码信息的各通道分量进行融合包括:
根据每个历史编码信息的各通道分量之间的相关性,确定所述各通道分量的第二权重;
根据所述第二权重,对所述各通道分量进行加权,得到所述融合后的历史编码信息。
5.根据权利要求1所述的姿态确定装置,其中,所述至少一个历史编码信息包括多个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态包括:
根据各历史编码信息之间的相关性,对所述各历史编码信息进行融合,得到综合历史编码信息;
根据所述综合历史编码信息和所述当前编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
6.根据权利要求5所述的姿态确定装置,其中,对所述各历史编码信息进行融合包括:
根据各历史编码信息之间的相关性,确定所述各历史编码信息的第三权重;
根据所述第三权重,对所述各历史编码信息进行加权求和,得到所述综合历史编码信息。
7.根据权利要求1所述的姿态确定装置,其中,所述利用第二机器学习模型确定所述移动设备的姿态包括:
将所述当前编码信息和所述历史编码信息,按照通道维度方向拼接,生成输出编码信息;
根据所述输出编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
8.根据权利要求1-7任一项所述的姿态确定装置,其中,
所述图像差别特征通过光流网络模型获取;
所述第一机器学习模型和所述第二机器学习模型中的至少一个为卷积长短期记忆ConvLSTM模型。
9.一种移动设备的姿态确定方法,包括:
获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征;
根据所述图像差别特征,利用第一机器学习模型,获取当前编码信息;
根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型,确定所述移动设备的姿态;
其中,所述当前编码信息根据当前的图像差别特征确定,所述历史编码信息根据历史的图像差别特征确定;
所述根据所述当前编码信息和至少一个历史编码信息,利用第二机器学习模型确定所述移动设备的姿态包括:
根据所述当前编码信息的各通道分量之间的相关性,对所述当前编码信息的各通道分量进行融合,得到融合后的当前编码信息;
根据所述历史编码信息的各通道分量之间的相关性,对所述历史编码信息的各通道分量进行融合,得到融合后的历史编码信息;
根据所述融合后的当前编码信息和所述融合后的历史编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
10.根据权利要求9所述的姿态确定方法,其中,所述当前帧为第M帧,M为大于1的正整数,
所述的姿态确定方法还包括:
在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下,存储第N帧的编码信息作为所述历史编码信息,N为小于M的正整数。
11.根据权利要求9所述的姿态确定方法,其中,对所述当前编码信息的各通道分量进行融合包括:
根据所述当前编码信息各通道分量之间的相关性,确定所述各通道分量的第一权重;
根据所述第一权重,对所述各通道分量进行加权,得到所述融合后的当前编码信息。
12.根据权利要求9所述的姿态确定方法,其中,对所述历史编码信息的各通道分量进行融合包括:
根据每个历史编码信息的各通道分量之间的相关性,确定所述各通道分量的第二权重;
根据所述第二权重,对所述各通道分量进行加权,得到所述融合后的所述历史编码信息。
13.根据权利要求9所述的姿态确定方法,其中,所述至少一个历史编码信息包括多个历史编码信息,
利用第二机器学习模型确定所述移动设备的姿态包括:
根据各历史编码信息之间的相关性,对所述各历史编码信息进行融合,得到综合历史编码信息;
根据所述综合历史编码信息和所述当前编码信息,利用第二机器学习模型确定所述移动设备的姿态。
14.根据权利要求13所述的姿态确定方法,其中,对所述各历史编码信息进行融合包括:
根据各历史编码信息之间的相关性,确定所述各历史编码信息的第三权重;
根据所述第三权重,对所述各历史编码信息进行加权求和,得到所述综合历史编码信息。
15.根据权利要求9所述的姿态确定方法,其中,所述利用第二机器学习模型确定所述移动设备的姿态包括:
将所述当前编码信息和所述历史编码信息,按照通道维度方向拼接,生成输出编码信息;
根据所述输出编码信息,利用所述第二机器学习模型确定所述移动设备的姿态。
16.根据权利要求9-15任一项所述的姿态确定方法,其中,
所述图像差别特征通过光流网络模型获取;
所述第一机器学习模型和所述第二机器学习模型中的至少一个为卷积长短期记忆ConvLSTM模型。
17.一种视觉里程计,包括:
权利要求1-8任一项所述的姿态确定装置,用于根据移动设备拍摄的视频流确定所述移动设备的姿态。
18.根据权利要求17所述的视觉里程计,还包括:
图像传感器,用于获取所述视频流。
19.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求9-16中任一项所述的姿态确定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199169.7A CN109798888B (zh) | 2019-03-15 | 2019-03-15 | 移动设备的姿态确定装置、方法和视觉里程计 |
PCT/CN2020/075049 WO2020186943A1 (zh) | 2019-03-15 | 2020-02-13 | 移动设备的姿态确定装置、方法和视觉里程计 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199169.7A CN109798888B (zh) | 2019-03-15 | 2019-03-15 | 移动设备的姿态确定装置、方法和视觉里程计 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109798888A CN109798888A (zh) | 2019-05-24 |
CN109798888B true CN109798888B (zh) | 2021-09-17 |
Family
ID=66563026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199169.7A Active CN109798888B (zh) | 2019-03-15 | 2019-03-15 | 移动设备的姿态确定装置、方法和视觉里程计 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109798888B (zh) |
WO (1) | WO2020186943A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109798888B (zh) * | 2019-03-15 | 2021-09-17 | 京东方科技集团股份有限公司 | 移动设备的姿态确定装置、方法和视觉里程计 |
CN110595466B (zh) * | 2019-09-18 | 2020-11-03 | 电子科技大学 | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 |
CN111028282A (zh) * | 2019-11-29 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种无监督位姿与深度计算方法及系统 |
CN112344922B (zh) * | 2020-10-26 | 2022-10-21 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN112268564B (zh) * | 2020-12-25 | 2021-03-02 | 中国人民解放军国防科技大学 | 一种无人机降落空间位置和姿态端到端估计方法 |
CN112651345B (zh) * | 2020-12-29 | 2023-11-10 | 深圳市优必选科技股份有限公司 | 一种人体姿态识别模型优化方法、装置和终端设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423727A (zh) * | 2017-08-14 | 2017-12-01 | 河南工程学院 | 基于神经网络的人脸复杂表情识别方法 |
CN107561503A (zh) * | 2017-08-28 | 2018-01-09 | 哈尔滨工业大学 | 一种基于多重渐消因子的自适应目标跟踪滤波方法 |
CN107577651A (zh) * | 2017-08-25 | 2018-01-12 | 上海交通大学 | 基于对抗网络的汉字字体迁移系统 |
WO2018125939A1 (en) * | 2016-12-30 | 2018-07-05 | DeepMap Inc. | Visual odometry and pairwise alignment for high definition map creation |
CN108537848A (zh) * | 2018-04-19 | 2018-09-14 | 北京工业大学 | 一种面向室内场景重建的两级位姿优化估计方法 |
CN109040691A (zh) * | 2018-08-29 | 2018-12-18 | 石数字技术成都有限公司 | 一种基于前端目标检测的场景视频还原装置 |
CN109272493A (zh) * | 2018-08-28 | 2019-01-25 | 中国人民解放军火箭军工程大学 | 一种基于递归卷积神经网络的单目视觉里程计方法 |
CN109344840A (zh) * | 2018-08-07 | 2019-02-15 | 深圳市商汤科技有限公司 | 图像处理方法和装置、电子设备、存储介质、程序产品 |
CN109359578A (zh) * | 2018-10-09 | 2019-02-19 | 四川师范大学 | 加权融合三通道特征步态表征方法 |
CN109360226A (zh) * | 2018-10-17 | 2019-02-19 | 武汉大学 | 一种基于时间序列多特征融合的多目标跟踪方法 |
CN109448024A (zh) * | 2018-11-06 | 2019-03-08 | 深圳大学 | 利用深度数据构建约束相关滤波器的视觉跟踪方法、系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005099423A2 (en) * | 2004-04-16 | 2005-10-27 | Aman James A | Automatic event videoing, tracking and content generation system |
JP2009182870A (ja) * | 2008-01-31 | 2009-08-13 | Toshiba Corp | 帳票記載履歴管理システム及び帳票記載履歴監視プログラム |
CN102519481B (zh) * | 2011-12-29 | 2013-09-04 | 中国科学院自动化研究所 | 一种双目视觉里程计实现方法 |
CN104463216B (zh) * | 2014-12-15 | 2017-07-28 | 北京大学 | 基于计算机视觉的眼动模式数据自动获取方法 |
WO2016179303A1 (en) * | 2015-05-04 | 2016-11-10 | Kamama, Inc. | System and method of vehicle sensor management |
CN106504265B (zh) * | 2015-09-08 | 2019-08-16 | 株式会社理光 | 运动估计优化方法、设备和系统 |
JP6575325B2 (ja) * | 2015-11-27 | 2019-09-18 | 富士通株式会社 | カメラ位置姿勢推定装置、カメラ位置姿勢推定方法およびカメラ位置姿勢推定プログラム |
CN106485729A (zh) * | 2016-09-29 | 2017-03-08 | 江苏云光智慧信息科技有限公司 | 一种基于混合高斯模型的运动目标检测方法 |
CN108230328B (zh) * | 2016-12-22 | 2021-10-22 | 新沂阿凡达智能科技有限公司 | 获取目标对象的方法、装置和机器人 |
CN106643699B (zh) * | 2016-12-26 | 2023-08-04 | 北京互易科技有限公司 | 一种虚拟现实系统中的空间定位装置和定位方法 |
US10852749B2 (en) * | 2017-08-28 | 2020-12-01 | Nec Corporation | Learning good features for visual odometry |
US20190079533A1 (en) * | 2017-09-13 | 2019-03-14 | TuSimple | Neural network architecture method for deep odometry assisted by static scene optical flow |
CN107796397B (zh) * | 2017-09-14 | 2020-05-15 | 杭州迦智科技有限公司 | 一种机器人双目视觉定位方法、装置和存储介质 |
CN108332750A (zh) * | 2018-01-05 | 2018-07-27 | 深圳市功夫机器人有限公司 | 机器人定位方法及终端设备 |
CN108491763B (zh) * | 2018-03-01 | 2021-02-02 | 北京市商汤科技开发有限公司 | 三维场景识别网络的无监督训练方法、装置及存储介质 |
CN108648216B (zh) * | 2018-04-19 | 2020-10-09 | 长沙学院 | 一种基于光流与深度学习的视觉里程计实现方法和系统 |
CN109798888B (zh) * | 2019-03-15 | 2021-09-17 | 京东方科技集团股份有限公司 | 移动设备的姿态确定装置、方法和视觉里程计 |
-
2019
- 2019-03-15 CN CN201910199169.7A patent/CN109798888B/zh active Active
-
2020
- 2020-02-13 WO PCT/CN2020/075049 patent/WO2020186943A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018125939A1 (en) * | 2016-12-30 | 2018-07-05 | DeepMap Inc. | Visual odometry and pairwise alignment for high definition map creation |
CN107423727A (zh) * | 2017-08-14 | 2017-12-01 | 河南工程学院 | 基于神经网络的人脸复杂表情识别方法 |
CN107577651A (zh) * | 2017-08-25 | 2018-01-12 | 上海交通大学 | 基于对抗网络的汉字字体迁移系统 |
CN107561503A (zh) * | 2017-08-28 | 2018-01-09 | 哈尔滨工业大学 | 一种基于多重渐消因子的自适应目标跟踪滤波方法 |
CN108537848A (zh) * | 2018-04-19 | 2018-09-14 | 北京工业大学 | 一种面向室内场景重建的两级位姿优化估计方法 |
CN109344840A (zh) * | 2018-08-07 | 2019-02-15 | 深圳市商汤科技有限公司 | 图像处理方法和装置、电子设备、存储介质、程序产品 |
CN109272493A (zh) * | 2018-08-28 | 2019-01-25 | 中国人民解放军火箭军工程大学 | 一种基于递归卷积神经网络的单目视觉里程计方法 |
CN109040691A (zh) * | 2018-08-29 | 2018-12-18 | 石数字技术成都有限公司 | 一种基于前端目标检测的场景视频还原装置 |
CN109359578A (zh) * | 2018-10-09 | 2019-02-19 | 四川师范大学 | 加权融合三通道特征步态表征方法 |
CN109360226A (zh) * | 2018-10-17 | 2019-02-19 | 武汉大学 | 一种基于时间序列多特征融合的多目标跟踪方法 |
CN109448024A (zh) * | 2018-11-06 | 2019-03-08 | 深圳大学 | 利用深度数据构建约束相关滤波器的视觉跟踪方法、系统 |
Non-Patent Citations (5)
Title |
---|
"An Improved Camera Pose Estimation Method for SLAM System";Kong Dehui等;《Journal of South China University of Technology (Natural Science Edition) 》;20181231;第46卷(第12期);10-19 * |
"Scalable Monocular SLAM by Fusing and Connecting Line Segments with Inverse Depth Filter";Zhang, Jiyuan等;《International Conference on Pattern Recognition 》;20181231;2283-2288 * |
"单目相机姿态估计的点云与图像融合";熊光洋等;《测绘科学》;20160229;第41卷(第2期);115-120 * |
"基于 ICP 与光流法结合的 Kinect 配准算法";张岩等;《湖北第二师范学院学报》;20150831;第32卷(第8期);11-18 * |
"基于双帧图模型的视频物体分割";蒲松涛等;《北京大学学报(自然科学版)》;20150531;第51卷(第3期);409-417 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020186943A1 (zh) | 2020-09-24 |
CN109798888A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109798888B (zh) | 移动设备的姿态确定装置、方法和视觉里程计 | |
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
CN106960206B (zh) | 字符识别方法和字符识别系统 | |
US20180114071A1 (en) | Method for analysing media content | |
US20200005074A1 (en) | Semantic image segmentation using gated dense pyramid blocks | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
Chen et al. | Adaptive convolution for object detection | |
CN111931720B (zh) | 跟踪图像特征点的方法、装置、计算机设备和存储介质 | |
McIntosh et al. | Recurrent segmentation for variable computational budgets | |
CN112434618A (zh) | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
CN107403440B (zh) | 用于确定对象的姿态的方法和装置 | |
CN111626134A (zh) | 一种基于隐密度分布的密集人群计数方法、系统及终端 | |
WO2021147055A1 (en) | Systems and methods for video anomaly detection using multi-scale image frame prediction network | |
CN112101114A (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN110796003B (zh) | 车道线检测方法、装置及电子设备 | |
Kang et al. | ETLi: Efficiently annotated traffic LiDAR dataset using incremental and suggestive annotation | |
CN112016571A (zh) | 一种基于注意力机制的特征提取方法、装置及电子设备 | |
Berroukham et al. | Fine-Tuning Pre-trained Vision Transformer Model for Anomaly Detection in Video Sequences | |
US20230148017A1 (en) | Compositional reasoning of gorup activity in videos with keypoint-only modality | |
CN115953770A (zh) | 基于视频流的车牌识别方法、装置、计算设备及存储介质 | |
Lin et al. | ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection | |
CN117710301A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zha Hongbin Inventor after: Xue Fei Inventor after: Fang Yigeng Inventor after: Jiang Li Inventor before: Fang Yigeng Inventor before: Zha Hongbin Inventor before: Jiang Li Inventor before: Xue Fei |
|
GR01 | Patent grant | ||
GR01 | Patent grant |