CN114168783A - 基于记忆库机制的多场景位姿回归方法及系统 - Google Patents

基于记忆库机制的多场景位姿回归方法及系统 Download PDF

Info

Publication number
CN114168783A
CN114168783A CN202111471189.9A CN202111471189A CN114168783A CN 114168783 A CN114168783 A CN 114168783A CN 202111471189 A CN202111471189 A CN 202111471189A CN 114168783 A CN114168783 A CN 114168783A
Authority
CN
China
Prior art keywords
scene
pose
memory
feature
current image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111471189.9A
Other languages
English (en)
Other versions
CN114168783B (zh
Inventor
岳昊嵩
苗津毓
曹丹阳
王薇
王磊
陈伟海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111471189.9A priority Critical patent/CN114168783B/zh
Publication of CN114168783A publication Critical patent/CN114168783A/zh
Application granted granted Critical
Publication of CN114168783B publication Critical patent/CN114168783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于记忆库机制的多场景位姿回归方法及系统,涉及深度学习技术领域。具体步骤包括如下:将图像输入至训练好的位姿回归模型中,得到所述图像的描述特征和定位特征;根据所述描述特征从记忆库中检索相关场景中的记忆特征;利用所述记忆特征增强处理所述定位特征,得到第一特征;将所述第一特征输入至位姿估计网络中,得到当前图像的相机位姿。本发明提出了一种模拟人类记忆机制的多场景位姿回归模型,利用记忆库分辨并记忆各场景的特征信息,实现在多个场景下准确定位。

Description

基于记忆库机制的多场景位姿回归方法及系统
技术领域
本发明涉及深度学习技术领域,更具体的说是涉及一种基于记忆库机制的多场景位姿回归方法及系统。
背景技术
对于旨在长期自主运行的智能机器人来说,在外观剧烈多变的场景中实现准确且鲁棒的感知和定位是不可缺少的重要能力。基于2D图像的视觉定位算法发展迅速。在传统的视觉定位算法中,大多数算法需要事先对环境进行离线建图,通过对环境中采集的若干图像进行同时定位与建图或运动恢复结构等重建算法,对环境构建规模庞大的点云地图。这一类算法可以获得比较准确的位姿,但是定位的精度依赖于离线构建的地图的精度,并且点云地图往往占据了过大的内存空间,在注册图像时,特征匹配和检索都需要花费大量计算资源,所以算法的实时性较差,并且对计算平台的依赖性较高。
而通过位姿回归模型,获得图像的定位特征信息,据此估计当前相机位姿,这一类算法不需要离线构建大规模的点云,运算效率极高,并且无需获得准确的相机内参。但是,这一类基于深度学习的位姿回归模型需要在离线阶段,采集当前场景的图像,并获得这些图像的真值位姿,对模型进行离线训练。在场景A中训练的模型,一般情况下很难迁移到场景B中进行准确定位,并且直接在场景A和场景B中联合训练的模型,在场景A或场景B中的定位精度要比单一场景训练的模型表现更差。也就是说,当前的位姿回归模型只能适用于单场景的定位任务,这大大限制了位姿回归模型的应用场景。
通过上述分析,现有技术的客观缺点如下:(1)传统定位算法需要离线构建大规模点云地图,在定位时需要特征匹配及检索,所耗存储空间和计算资源较大,实时性较差;(2)基于深度学习的位姿回归模型难以在多个场景中进行准确定位,需要对每个场景进行单独的训练和测试,应用的局限性较大;(3)基于深度学习的位姿回归模型在定位时仅依赖当前图像的定位特征,无法很有效地结合离线训练阶段中可以获得的历史经验,当前图像的定位特征多而杂,难以选择对定位任务真正有效的定位特征。
因此,对本领域技术人员来说,如何实现多场景位姿准确定位是亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于记忆库机制的多场景位姿回归方法及系统,能够利用记忆库分辨并记忆各场景的特征信息,实现在多个场景下位姿准确定位。
为了实现上述目的,本发明采用如下技术方案:一方面,提供一种基于记忆库机制的多场景位姿回归方法,具体步骤包括如下:
将图像输入至训练好的位姿回归模型中,得到所述图像的描述特征和定位特征;
根据所述描述特征从记忆库中检索相关场景中的记忆特征;
利用所述记忆特征增强处理所述定位特征,得到第一特征;
将所述第一特征输入至位姿估计网络中,得到当前图像的相机位姿。
可选的,训练所述位姿回归模型的步骤为:
获取图像以及所述图像对应的真值位姿;
通过损失函数将所述位姿回归模型输出的预测位姿向真值位姿拟合。
可选的,所述损失函数的计算公式为:
L=Lcp+Lce
其中,Lcp为位姿回归损失函数;Lce为交叉熵损失函数;
Figure BDA0003392326220000031
Figure BDA0003392326220000032
其中,
Figure BDA0003392326220000033
p为真值位姿,p=[x,q];
Figure BDA0003392326220000034
为预测位姿,
Figure BDA0003392326220000035
x为位置向量,q为角度向量,β为系数,N为场景个数,假设当前图像属于第j个场景,则Kj为第j个场景的场景键值,
Figure BDA0003392326220000036
为场景键值中第i维元素,V为当前图像的描述特征,Vi为当前图像的描述特征中第i维元素。
通过采用上述技术方案,具有以下有益的技术效果:由于场景数量是固定的,所以将识别和分辨场景这一场景识别任务简化为场景分类任务,即让模型判断当前图像来自于N个场景的哪一个,进而可以让模型检索到与当前图像相关的描述特征。
可选的,所述从记忆库中检索相关场景中的记忆特征的步骤为:图像的描述特征输入记忆库中,与所有场景键值计算相似度,相似度最大的即与当前图像最相关的场景,进而检索到与当前图像最相关的场景记忆特征;
所述相似度的计算公式为:SIM(I)=VTK∈R1×N,I为当前图像,V为当前图像的描述特征,K为场景键值,VT为V的转置,R1×N为维度为1×N的实数矩阵。
可选的,通过注意力机制利用所述记忆特征增强处理所述定位特征。
另一方面,提供一种基于记忆库机制的多场景位姿回归系统,包括特征提取网络、记忆库、特征增强网络、位姿回归网络;其中,
所述特征提取网络,用于提取图像的描述特征和定位特征;
所述记忆库,用于根据所述描述特征检索相关场景中的记忆特征;
所述特征增强网络,用于利用所述记忆特征增强处理所述定位特征,得到第一特征;
所述位姿回归网络,用于对所述第一特征中进行处理得到当前图像的相机位姿。
可选的,所述特征增强网络包括自我注意力层和交叉注意力层,所述自我注意力层与所述交叉注意力层交替出现形成所述特征增强网络。
可选的,所述特征提取网络为ResNet神经网络模型、VGG模型、AlexNet模型、GoogLeNet模型中的一种。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于记忆库机制的多场景位姿回归方法及系统,具有以下有益的技术效果:
(1)基于深度学习的位姿回归模型相比传统的定位算法计算效率更高,无需离线构建大规模的点云地图,定位阶段无需进行特征匹配,只需要对当前图像进行处理,并且模型的规模较小,所耗存储空间和计算资源更少;
(2)基于记忆库机制的位姿回归模型可以利用记忆库存储多个场景的关于定位的历史经验,即相关场景的记忆特征,因此可以实现单一模型多场景的定位任务,相比现有的只能实现单一场景定位的模型实用价值更高,应用范围更广泛;
(3)记忆库机制可以更有效地、显式地利用历史经验增强当前图像的定位特征,选择对定位任务有利的定位特征,相比现有模型只依赖当前图像定位特征,定位效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1公开了一种基于记忆库机制的多场景位姿回归方法,如图1所示,具体步骤包括如下:
S1、将图像输入至训练好的位姿回归模型中,得到图像的描述特征和定位特征;
S2、根据描述特征从记忆库中检索相关场景中的记忆特征;
S3、利用记忆特征增强处理定位特征,得到第一特征;
S4、将第一特征输入至位姿估计网络中,得到当前图像的相机位姿。
进一步的,训练位姿回归模型的步骤为:
获取图像以及图像对应的真值位姿;
通过损失函数将位姿回归模型输出的预测位姿向真值位姿拟合。
具体的,首先需要获得三通道的RGB图像及对应的真值位姿,在训练时,令模型输出的预测位姿
Figure BDA0003392326220000051
向真值位姿p=[x,q]拟合,所用位姿回归的损失函数为:
Figure BDA0003392326220000052
其中x为位置向量,q为角度向量,β为系数,β用于平衡位置和角度之间误差的大小。由于模型输出的预测角度向量无法保证是单位四位数向量,所以需要对预测的角度向量进行归一化。一般来讲,在室内场景中,位置之间的误差比较有限,比角度误差大得不多,所以β值较小;在室外场景,位置之间的误差会很大,所以β值需要设置的较大。
此外,如果可以获得序列化的图像序列,连续图像的位姿应当也是连续的,所以引入时序一致性,进行额外的约束,加入时序一致性的位姿回归损失函数为:
Figure BDA0003392326220000061
为了让模型检索到与当前图像相关的描述特征,由于场景数量是固定的,所以将识别和分辨场景这一场景识别任务简化为场景分类任务,即让模型判断当前图像来自于N个场景的哪一个,直接使用图像分类任务中惯用的交叉熵损失函数,并人工确定当前图像属于第j个场景,求取图像的描述特征V和第j个场景的场景键值Kj之间的交叉熵损失:
Figure BDA0003392326220000062
最终,整体的损失函数为两部分损失相加:
L=Lcp+Lce
模型利用梯度下降法进行优化。当模型训练收敛后,加载预训练好的位姿回归模型,输入已训练过的多个场景中的任意图像,就可以直接得到预测结果,对预测的角度向量进行归一化,得到当前图像的相机位姿,位置由X,Y,Z全局坐标表示,角度由单位四元数来表示。
进一步的,从记忆库中检索相关场景中的记忆特征的步骤为:图像的描述特征输入记忆库中,与所有场景键值计算相似度,相似度最大的即与当前图像最相关的场景,进而检索到与当前图像最相关的场景记忆特征;
相似度的计算公式为:SIM(I)=VTK∈R1×N,I为当前图像,V为当前图像的描述特征,K为场景键值,VT为V的转置。
更进一步的,通过注意力机制利用记忆特征增强处理定位特征。
本发明实施例2公开了一种基于记忆库机制的多场景位姿回归系统,如图2所示,包括特征提取网络、记忆库、特征增强网络、位姿回归网络;其中,
特征提取网络,用于提取图像的描述特征和定位特征;
记忆库,用于根据描述特征检索相关场景中的记忆特征;
特征增强网络,用于利用记忆特征增强处理定位特征,得到第一特征;
位姿回归网络,用于对第一特征中进行处理得到当前图像的相机位姿。
具体的,对于特征提取网络包括但不限于ResNet神经网络模型、VGG模型、AlexNet模型、GoogLeNet模型中的一种。在本实施例中采用了惯用的ResNet神经网络,包括卷积模块、最大池化层、第一残差模块、第二残差模块、第三残差模块、平均池化层、全连接层,以三通道的RGB图像I∈RH×W×3作为输入,选取了第二残差模块输出的中间特征
Figure BDA0003392326220000071
作为当前图像用于定位任务的定位特征,可以视为HC×WC个C维局部特征向量Fi∈RC,i∈[0,HC×WC),同时选取全连接层输出的特征向量V∈RN作为当前图像用于识别和检索的描述特征,其中N为场景数,该描述特征是经过SoftMax非线性激活函数处理的,每个值表征了当前图像属于某个场景的概率。
对于记忆库,在本实施例中定义了一个场景键值-记忆特征对应的列表结构。场景键值定义为每个场景的独热编码,比如第i个场景的场景键值为Ki=[0,...,0,1,0,...]∈RN,i∈[0,N),其中第i个位置的元素为1,其他位置的元素为0,记忆特征定义为每个场景对定位任务有帮助的特征信息,比如第i个场景的记忆特征为Mi∈RL×C,i∈[0,N),可以视为L个C维局部特征向量
Figure BDA0003392326220000072
当前图像I的描述特征V输入记忆库后,与所有场景键值计算相似度SIM(I)=VTK∈R1×N,取相似度最大,即与当前图像最相关的场景r(I)=argmax(SIM(I)),由此检索到与当前图像I最相关的场景记忆特征Mr(L)∈RL×C
对于特征增强网络,在本实施例中定义了两种结构,分别是自我注意力层和交叉注意力层,自我注意力层与交叉注意力层交替出现形成特征增强网络,两种结构的原理都是一样的,利用注意力机制来获得特征之间联系,来增强特征。为了获得大范围的注意力信息来增强特征,采用了经典的非局部模块(Non-local)结构。对于特征FA∈RA×C和特征FB∈RB×C,A和B是特征数量,C是特征维度,增强过程的计算公式如下:
Figure BDA0003392326220000081
其中FAi和FBi分别是第i个FA和FB特征,定义归一化函数C(x,y)为
Figure BDA0003392326220000082
g(x)是嵌入函数,为了简便,直接采用线性函数作为嵌入函数:
g(x)=Wgx;
其中Wg∈R1×1为可学习的线性嵌入函数的权重。对于相关性函数f(x,y),采用较为简单的高斯(Gaussian)函数:
Figure BDA0003392326220000083
经过以上非局部模块的处理后,输入的特征FA被增强为增强特征EFA∈RA×C,记为
EFA=E(FA,FB);
自我注意力层是利用当前图像的定位特征
Figure BDA0003392326220000084
增强当前图像的定位特征,即:F=E(F,F);而交叉注意力层则是利用记忆库中检索到的记忆特征Mr(I)∈RL×C增强当前图像的定位特征,即:F=E(F,Mr(I))。
两种注意力层交替堆叠,结合了记忆库中关于当前相关场景的定位经验,来增强了当前图像获得的定位特征,称为增强定位特征
Figure BDA0003392326220000091
在位姿估计网络中,我们对输入的增强定位特征EF进行通道维度的平均池化,然后展平后输入两个全连接层,得到一个七维的向量,前三维为位置向量x,后四维为单位四元数形式的角度向量q,表示当前图像的相机位姿。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于记忆库机制的多场景位姿回归方法,其特征在于,具体步骤包括如下:
将图像输入至训练好的位姿回归模型中,得到所述图像的描述特征和定位特征;
根据所述描述特征从记忆库中检索相关场景中的记忆特征;
利用所述记忆特征增强处理所述定位特征,得到第一特征;
将所述第一特征输入至位姿估计网络中,得到当前图像的相机位姿。
2.根据权利要求1所述的一种基于记忆库机制的多场景位姿回归方法,其特征在于,训练所述位姿回归模型的步骤为:
获取图像以及所述图像对应的真值位姿;
通过损失函数将所述位姿回归模型输出的预测位姿向真值位姿拟合。
3.根据权利要求2所述的一种基于记忆库机制的多场景位姿回归方法,其特征在于,所述损失函数的计算公式为:
L=Lcp+Lce
其中,Lcp为位姿回归损失函数;Lce为交叉熵损失函数;
Figure FDA0003392326210000011
Figure FDA0003392326210000012
其中,
Figure FDA0003392326210000013
p为真值位姿,p=[x,q];
Figure FDA0003392326210000014
为预测位姿,
Figure FDA0003392326210000015
x为位置向量,q为角度向量,β为系数,N为场景个数,假设当前图像属于第j个场景,则Kj为第j个场景的场景键值,
Figure FDA0003392326210000016
为场景键值中第i维元素,V为当前图像的描述特征,Vi为当前图像的描述特征中第i维元素。
4.根据权利要求1所述的一种基于记忆库机制的多场景位姿回归方法,其特征在于,所述从记忆库中检索相关场景中的记忆特征的步骤为:图像的描述特征输入记忆库中,与所有场景键值计算相似度,相似度最大的即与当前图像最相关的场景,进而检索到与当前图像最相关的场景记忆特征;
所述相似度的计算公式为:SIM(I)=VTK∈R1×N,I为当前图像,V为当前图像的描述特征,K为场景键值,VT为V的转置,R1×N为维度为1×N的实数矩阵。
5.根据权利要求1所述的一种基于记忆库机制的多场景位姿回归方法,其特征在于,通过注意力机制利用所述记忆特征增强处理所述定位特征。
6.一种基于记忆库机制的多场景位姿回归系统,其特征在于,包括特征提取网络、记忆库、特征增强网络、位姿回归网络;其中,
所述特征提取网络,用于提取图像的描述特征和定位特征;
所述记忆库,用于根据所述描述特征检索相关场景中的记忆特征;
所述特征增强网络,用于利用所述记忆特征增强处理所述定位特征,得到第一特征;
所述位姿回归网络,用于对所述第一特征中进行处理得到当前图像的相机位姿。
7.根据权利要求6所述的一种基于记忆库机制的多场景位姿回归系统,其特征在于,所述特征增强网络包括自我注意力层和交叉注意力层,所述自我注意力层与所述交叉注意力层交替出现形成所述特征增强网络。
8.根据权利要求6所述的一种基于记忆库机制的多场景位姿回归系统,其特征在于,所述特征提取网络为ResNet神经网络模型、VGG模型、AlexNet模型、GoogLeNet模型中的一种。
CN202111471189.9A 2021-12-03 2021-12-03 基于记忆库机制的多场景位姿回归方法及系统 Active CN114168783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471189.9A CN114168783B (zh) 2021-12-03 2021-12-03 基于记忆库机制的多场景位姿回归方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471189.9A CN114168783B (zh) 2021-12-03 2021-12-03 基于记忆库机制的多场景位姿回归方法及系统

Publications (2)

Publication Number Publication Date
CN114168783A true CN114168783A (zh) 2022-03-11
CN114168783B CN114168783B (zh) 2024-07-02

Family

ID=80482954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471189.9A Active CN114168783B (zh) 2021-12-03 2021-12-03 基于记忆库机制的多场景位姿回归方法及系统

Country Status (1)

Country Link
CN (1) CN114168783B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137644A1 (en) * 2016-11-11 2018-05-17 Qualcomm Incorporated Methods and systems of performing object pose estimation
CN111508024A (zh) * 2019-06-27 2020-08-07 浙江大学 一种基于深度学习估计机器人位姿的方法
CN113724325A (zh) * 2021-05-31 2021-11-30 西安理工大学 一种基于图卷积网络的多场景单目相机位姿回归方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137644A1 (en) * 2016-11-11 2018-05-17 Qualcomm Incorporated Methods and systems of performing object pose estimation
CN111508024A (zh) * 2019-06-27 2020-08-07 浙江大学 一种基于深度学习估计机器人位姿的方法
CN113724325A (zh) * 2021-05-31 2021-11-30 西安理工大学 一种基于图卷积网络的多场景单目相机位姿回归方法

Also Published As

Publication number Publication date
CN114168783B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN109858506B (zh) 一种面向卷积神经网络分类结果的可视化算法
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
CN112507853B (zh) 一种基于互注意力机制的跨模态行人重识别方法
CN110929080A (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111414875B (zh) 基于深度回归森林的三维点云头部姿态估计系统
CN113705641A (zh) 基于富上下文网络的高光谱图像分类方法
CN111444957B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN109344777A (zh) 基于elm的高光谱遥感影像土地利用覆盖的优化分类方法
CN114187506B (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN117237858B (zh) 一种回环检测方法
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN113469238A (zh) 一种基于crnn解决拼图任务的自监督学习方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN114168783B (zh) 基于记忆库机制的多场景位姿回归方法及系统
CN114998611A (zh) 一种基于结构融合的目标轮廓检测方法
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant