CN111508024A - 一种基于深度学习估计机器人位姿的方法 - Google Patents

一种基于深度学习估计机器人位姿的方法 Download PDF

Info

Publication number
CN111508024A
CN111508024A CN201910565280.3A CN201910565280A CN111508024A CN 111508024 A CN111508024 A CN 111508024A CN 201910565280 A CN201910565280 A CN 201910565280A CN 111508024 A CN111508024 A CN 111508024A
Authority
CN
China
Prior art keywords
training
robot
neural network
data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910565280.3A
Other languages
English (en)
Inventor
刘勇
翟光耀
刘亮
张林箭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910565280.3A priority Critical patent/CN111508024A/zh
Publication of CN111508024A publication Critical patent/CN111508024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了一种基于深度学习估计机器人位姿的方法,采用深层级联卷积神经网络和栈式循环卷积神经网络结合串联,利用数据驱动,端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤,通过特征提取模块编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播,最终输出预测的机器人上相机的位姿。本发明在训练网络模型之前进行了数据增强,包括两种方式:隔帧增强和时序增强,可模拟机器人速度变化,速度逆向的情况,使数据更丰富,给网络预测增加了约束令预测位姿更准确。

Description

一种基于深度学习估计机器人位姿的方法
技术领域
本发明涉及所述估计机器人位姿方法,特别涉及一种基于深度学习估计机器人位姿的方法。
背景技术
对于智能机器人的自主导航来说,机器人在运动过程中的自定位能力非常重要。机器人的位姿估计问题是计算机视觉领域和SLAM的一个重要且尚需解决的问题,主流的位姿估计方法主要是基于图片中的几何特性来估计相机的位置,所以要求图片中的物体含有大量稳定的纹理特征。一旦场景中出现遮挡物或在雾天雨天取景,并且在没有其他传感器(IMU、激光雷达等)的情况下,几何法的求解就会受到很严重的干扰。而很多实际应用中,诸多其他传感器也可能派不上用场,所以只通过视觉来定位的方法还有很大的研究空间。
近年,以卷积神经网络为代表的深度学习方法在计算机视觉领域发挥了非常重要的作用,这些深度网络在提取图片特征,找出潜在规律等发面相比传统方法效果显著。
发明内容
本发明所要解决的技术问题是在于提供一种基于深度学习估计机器人位姿的方法,以利用深度学习提取图片特征效果显著的优势改善传统方法的不鲁棒性。
为此,本发明采用以下技术方案:
一种基于深度学习的估计机器人位姿方法,其特征在于,所述方法包括:
步骤一、确定传感器以及传感器的参数;
步骤二、确定所需训练数据要求,利用标签文件生成训练集、验证集和测试集,使用数据增强手段:隔帧增强、时序增强;
步骤三、搭建深度神经网络,包括确定网络结构为两个子模块、确定网络初始超参数和确定网络损失函数,所述两个子模块分别为特征提取模块和记忆传播模块;
步骤四、利用步骤二准备的训练集预训练搭建好的深度神经网络中的特征提取模块,更新特征提取模块的迭代参数,使特征提取模块输出收敛至第一预设阈值;
步骤五、将整个深度神经网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个深度神经网络,更新迭代参数,使网络预测准确率小于第二预设阈值;
步骤六、在测试集上进行网络模型的测试。
进一步地,在所述步骤一中,传感器类型为单目RGB相机。
进一步地,在所述步骤二中,训练集数据采用KITTI VO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
进一步地,在所述步骤三中:
所述特征提取模块和记忆传播模块分别为深层级联卷积神经网络和栈式循环卷积神经网络,深层级联卷积神经网络用于提取相邻两帧RGB图片中丰富的纹理信息所包含的几何关系,并编码成二维特征向量;栈式循环卷积神经网络输入编码向量进行记忆传播,最终输出结果为预测的机器人上相机的位姿;
预训练深度神经网络的损失函数为:(感觉未表达清楚)
Figure BDA0002109384220000021
其中,(P1i1i)是第i对训练数据中前向输入的机器人上单目相机的位移和转角的预测值;
Figure BDA0002109384220000022
是单目相机的位移和转角的真值;‖.‖为L2形式的范数;
方法中整个深度神经网络的损失函数为:
Figure BDA0002109384220000031
其中,(P1ij1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;(P2ij2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;
Figure BDA0002109384220000032
是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。
进一步地,在所述步骤四中,特征提取模块本身也具有预测机器人相机位姿的能力,特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
本发明相比现有技术具有以下优点:
a)、本发明采用一种深层级联卷积神经网络和栈式循环卷积神经网络结合串联的方法,利用数据驱动,端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤,通过“特征提取模块”编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播,最终输出预测的机器人上相机的位姿;
b)、在训练网络模型之前进行了数据增强,包括两种方式:隔帧增强和时序增强,可模拟机器人速度变化,速度逆向的情况,使数据更丰富,给网络预测增加了约束令预测位姿更准确。
附图说明
图1为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的流程图;
图2为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的原理示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种基于深度学习的估计机器人位姿方法。如图1、图2所示,所述方法包括:
S101:确定所需训练数据要求,利用标签文件生成训练集,验证集和测试集,使用数据增强手段:隔帧增强、时序增强,其中,所述训练数据采用KITTI VO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
具体的,将KITTI数据集中时间戳对应的相邻两帧图片与其相应的位姿矩阵解算相对位姿,将每个图片对作为网络训练集、验证集和测试集的输入,相应的相对位姿作为网络训练集、验证集和测试集的数据标签文件。
然后进行数据增强时采用1)、相隔若干帧取一帧数据而非相邻帧,并计算相应的相对位姿;2)、将图片及相应的位姿矩阵逆序排列,用1)、2)准备好的数据扩充整个网络的训练集、验证集和测试集。
S102:预训练搭建好的深度神经网络其中的“特征提取模块”,更新模块的迭代参数,使模块输出收敛至第一预设阈值,其中,在所述“特征提取模块”本身也具有预测机器人相机位姿的能力,需要稍微调整一下结构:在模块后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
具体的,S102步骤中,整个网络是在现在非常流行的深度学习开源框架PyTorch上搭建的,初始学习率设置为10-4,随着训练次数的增加,学习率会进行适当的减小,以保证优化函数更平滑的接近最优解。预训练时,程序运行在操作系统Ubuntu 16.04下,训练时采用一块NVIDIA TITAN X(Pascal)GPU进行加速运算,“特征提取模块”采取了FlowNetSimple的网络结构,不过本发明方法在Conv6_1层后面增加一层Max-pooling层,使得特征图谱维度进一步降低,图片经过10层卷积以及最后一层Max-pooling层后得到10×3×1024大小的特征图谱,将其拉伸为一维的特征向量输入到全连接层进行机器人相机位姿的回归。S102步骤的损失函数为:
Figure BDA0002109384220000051
其中,(P1i1i)是第i对训练数据中前向输入的机器人上单目相机的位移和转角的预测值;
Figure BDA0002109384220000052
是单目相机的位移和转角的真值;‖.‖为L2形式的范数。
S103:将整个网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个网络,更新迭代参数,使网络预测准确率小于第二预设阈值。
具体的,S103步骤中,将“特征提取模块”分离出来(去掉预训练网络中的全连接层),保留该子模块的参数,然后设初始学习率为10-4,重新用准备好的数据训练带“特征提取模块”的整个网络进行全局调整,网络预测准确率小于第二预设阈值时进行测试集测试达到一定误差之内即训练模型成功。S103步骤的损失函数为:
Figure BDA0002109384220000053
其中,(P1ij1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;(P2ij2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;
Figure BDA0002109384220000061
是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。
以上所述仅为发明的具体实施案例,本发明的技术特征并不局限于此,任何相关领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的保护范围之中。

Claims (5)

1.一种基于深度学习的估计机器人位姿方法,其特征在于,所述方法包括:
步骤一、确定传感器以及传感器的参数;
步骤二、确定所需训练数据要求,利用标签文件生成训练集、验证集和测试集,使用数据增强手段:隔帧增强、时序增强;
步骤三、搭建深度神经网络,包括确定网络结构为两个子模块、确定网络初始超参数和确定网络损失函数,所述两个子模块分别为特征提取模块和记忆传播模块;
步骤四、利用步骤二准备的训练集预训练搭建好的深度神经网络中的特征提取模块,更新特征提取模块的迭代参数,使特征提取模块输出收敛至第一预设阈值;
步骤五、将整个深度神经网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个深度神经网络,更新迭代参数,使网络预测准确率小于第二预设阈值;
步骤六、在测试集上进行网络模型的测试。
2.根据权利要求1所述的方法,其特征在于,在所述步骤一中,传感器类型为单目RGB相机。
3.根据权利要求1所述的方法,其特征在于,在所述步骤二中,训练集数据采用KITTIVO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
4.根据权利要求1所述的方法,其特征在于,在所述步骤三中:
所述特征提取模块和记忆传播模块分别为深层级联卷积神经网络和栈式循环卷积神经网络,深层级联卷积神经网络用于提取相邻两帧RGB图片中丰富的纹理信息所包含的几何关系,并编码成二维特征向量;栈式循环卷积神经网络输入编码向量进行记忆传播,最终输出结果为预测的机器人上相机的位姿;
预训练深度神经网络的损失函数为:
Figure FDA0002109384210000021
其中,(P1i1i)是第i对训练数据中前向输入的机器人上单目相机的位移和转角的预测值;
Figure FDA0002109384210000022
是单目相机的位移和转角的真值;‖.‖为L2形式的范数;
方法中整个深度神经网络的损失函数为:
Figure FDA0002109384210000023
其中,(P1ij1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;(P2ij2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;
Figure FDA0002109384210000024
是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。
5.根据权利要求1所述的方法,其特征在于,在所述步骤四中,特征提取模块本身也具有预测机器人相机位姿的能力,特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
CN201910565280.3A 2019-06-27 2019-06-27 一种基于深度学习估计机器人位姿的方法 Pending CN111508024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910565280.3A CN111508024A (zh) 2019-06-27 2019-06-27 一种基于深度学习估计机器人位姿的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910565280.3A CN111508024A (zh) 2019-06-27 2019-06-27 一种基于深度学习估计机器人位姿的方法

Publications (1)

Publication Number Publication Date
CN111508024A true CN111508024A (zh) 2020-08-07

Family

ID=71876080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910565280.3A Pending CN111508024A (zh) 2019-06-27 2019-06-27 一种基于深度学习估计机器人位姿的方法

Country Status (1)

Country Link
CN (1) CN111508024A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168783A (zh) * 2021-12-03 2022-03-11 北京航空航天大学 基于记忆库机制的多场景位姿回归方法及系统
CN114593735A (zh) * 2022-01-26 2022-06-07 奥比中光科技集团股份有限公司 一种位姿预测方法及装置
CN114593735B (zh) * 2022-01-26 2024-05-31 奥比中光科技集团股份有限公司 一种位姿预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227735A (zh) * 2016-12-22 2018-06-29 Tcl集团股份有限公司 基于视觉飞行自稳定的方法、计算机可读介质和系统
CN109816725A (zh) * 2019-01-17 2019-05-28 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的单目相机物体位姿估计方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227735A (zh) * 2016-12-22 2018-06-29 Tcl集团股份有限公司 基于视觉飞行自稳定的方法、计算机可读介质和系统
CN109816725A (zh) * 2019-01-17 2019-05-28 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的单目相机物体位姿估计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUANGYAO ZHAI等: "PoseConvGRU: A Monocular Approach for Visual Ego-motion Estimation by Learning", 《ARXIV:1906.08095V1 [CS.CV]》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168783A (zh) * 2021-12-03 2022-03-11 北京航空航天大学 基于记忆库机制的多场景位姿回归方法及系统
CN114593735A (zh) * 2022-01-26 2022-06-07 奥比中光科技集团股份有限公司 一种位姿预测方法及装置
CN114593735B (zh) * 2022-01-26 2024-05-31 奥比中光科技集团股份有限公司 一种位姿预测方法及装置

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN108510485B (zh) 一种基于卷积神经网络的无参照图像质量评估方法
CN110717527B (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN107103285B (zh) 基于卷积神经网络的人脸深度预测方法
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN107909150B (zh) 基于逐块随机梯度下降法在线训练cnn的方法与系统
CN109005398B (zh) 一种基于卷积神经网络的立体图像视差匹配方法
CN112200057B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN108664885B (zh) 基于多尺度级联HourGlass网络的人体关键点检测方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
WO2021051526A1 (zh) 多视图3d人体姿态估计方法及相关装置
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN112084911B (zh) 一种基于全局注意力的人脸特征点定位方法及系统
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN113673510A (zh) 一种结合特征点和锚框共同预测和回归的目标检测算法
CN106952304A (zh) 一种利用视频序列帧间相关性的深度图像计算方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
WO2023221608A1 (zh) 口罩识别模型的训练方法、装置、设备及存储介质
Yan et al. Improved target detection algorithm based on YOLO
WO2024017093A1 (zh) 图像生成方法、模型训练方法、相关装置及电子设备
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
CN115860091A (zh) 一种基于正交约束的深度特征描述符学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200807

WD01 Invention patent application deemed withdrawn after publication