CN111508024A - 一种基于深度学习估计机器人位姿的方法 - Google Patents
一种基于深度学习估计机器人位姿的方法 Download PDFInfo
- Publication number
- CN111508024A CN111508024A CN201910565280.3A CN201910565280A CN111508024A CN 111508024 A CN111508024 A CN 111508024A CN 201910565280 A CN201910565280 A CN 201910565280A CN 111508024 A CN111508024 A CN 111508024A
- Authority
- CN
- China
- Prior art keywords
- training
- robot
- neural network
- data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims abstract description 6
- 238000000926 separation method Methods 0.000 claims abstract description 6
- 238000006073 displacement reaction Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000000670 limiting effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 abstract 2
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
本发明提供了一种基于深度学习估计机器人位姿的方法,采用深层级联卷积神经网络和栈式循环卷积神经网络结合串联,利用数据驱动,端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤,通过特征提取模块编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播,最终输出预测的机器人上相机的位姿。本发明在训练网络模型之前进行了数据增强,包括两种方式:隔帧增强和时序增强,可模拟机器人速度变化,速度逆向的情况,使数据更丰富,给网络预测增加了约束令预测位姿更准确。
Description
技术领域
本发明涉及所述估计机器人位姿方法,特别涉及一种基于深度学习估计机器人位姿的方法。
背景技术
对于智能机器人的自主导航来说,机器人在运动过程中的自定位能力非常重要。机器人的位姿估计问题是计算机视觉领域和SLAM的一个重要且尚需解决的问题,主流的位姿估计方法主要是基于图片中的几何特性来估计相机的位置,所以要求图片中的物体含有大量稳定的纹理特征。一旦场景中出现遮挡物或在雾天雨天取景,并且在没有其他传感器(IMU、激光雷达等)的情况下,几何法的求解就会受到很严重的干扰。而很多实际应用中,诸多其他传感器也可能派不上用场,所以只通过视觉来定位的方法还有很大的研究空间。
近年,以卷积神经网络为代表的深度学习方法在计算机视觉领域发挥了非常重要的作用,这些深度网络在提取图片特征,找出潜在规律等发面相比传统方法效果显著。
发明内容
本发明所要解决的技术问题是在于提供一种基于深度学习估计机器人位姿的方法,以利用深度学习提取图片特征效果显著的优势改善传统方法的不鲁棒性。
为此,本发明采用以下技术方案:
一种基于深度学习的估计机器人位姿方法,其特征在于,所述方法包括:
步骤一、确定传感器以及传感器的参数;
步骤二、确定所需训练数据要求,利用标签文件生成训练集、验证集和测试集,使用数据增强手段:隔帧增强、时序增强;
步骤三、搭建深度神经网络,包括确定网络结构为两个子模块、确定网络初始超参数和确定网络损失函数,所述两个子模块分别为特征提取模块和记忆传播模块;
步骤四、利用步骤二准备的训练集预训练搭建好的深度神经网络中的特征提取模块,更新特征提取模块的迭代参数,使特征提取模块输出收敛至第一预设阈值;
步骤五、将整个深度神经网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个深度神经网络,更新迭代参数,使网络预测准确率小于第二预设阈值;
步骤六、在测试集上进行网络模型的测试。
进一步地,在所述步骤一中,传感器类型为单目RGB相机。
进一步地,在所述步骤二中,训练集数据采用KITTI VO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
进一步地,在所述步骤三中:
所述特征提取模块和记忆传播模块分别为深层级联卷积神经网络和栈式循环卷积神经网络,深层级联卷积神经网络用于提取相邻两帧RGB图片中丰富的纹理信息所包含的几何关系,并编码成二维特征向量;栈式循环卷积神经网络输入编码向量进行记忆传播,最终输出结果为预测的机器人上相机的位姿;
预训练深度神经网络的损失函数为:(感觉未表达清楚)
方法中整个深度神经网络的损失函数为:
其中,(P1ij,φ1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;(P2ij,φ2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。
进一步地,在所述步骤四中,特征提取模块本身也具有预测机器人相机位姿的能力,特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
本发明相比现有技术具有以下优点:
a)、本发明采用一种深层级联卷积神经网络和栈式循环卷积神经网络结合串联的方法,利用数据驱动,端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤,通过“特征提取模块”编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播,最终输出预测的机器人上相机的位姿;
b)、在训练网络模型之前进行了数据增强,包括两种方式:隔帧增强和时序增强,可模拟机器人速度变化,速度逆向的情况,使数据更丰富,给网络预测增加了约束令预测位姿更准确。
附图说明
图1为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的流程图;
图2为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的原理示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种基于深度学习的估计机器人位姿方法。如图1、图2所示,所述方法包括:
S101:确定所需训练数据要求,利用标签文件生成训练集,验证集和测试集,使用数据增强手段:隔帧增强、时序增强,其中,所述训练数据采用KITTI VO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
具体的,将KITTI数据集中时间戳对应的相邻两帧图片与其相应的位姿矩阵解算相对位姿,将每个图片对作为网络训练集、验证集和测试集的输入,相应的相对位姿作为网络训练集、验证集和测试集的数据标签文件。
然后进行数据增强时采用1)、相隔若干帧取一帧数据而非相邻帧,并计算相应的相对位姿;2)、将图片及相应的位姿矩阵逆序排列,用1)、2)准备好的数据扩充整个网络的训练集、验证集和测试集。
S102:预训练搭建好的深度神经网络其中的“特征提取模块”,更新模块的迭代参数,使模块输出收敛至第一预设阈值,其中,在所述“特征提取模块”本身也具有预测机器人相机位姿的能力,需要稍微调整一下结构:在模块后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
具体的,S102步骤中,整个网络是在现在非常流行的深度学习开源框架PyTorch上搭建的,初始学习率设置为10-4,随着训练次数的增加,学习率会进行适当的减小,以保证优化函数更平滑的接近最优解。预训练时,程序运行在操作系统Ubuntu 16.04下,训练时采用一块NVIDIA TITAN X(Pascal)GPU进行加速运算,“特征提取模块”采取了FlowNetSimple的网络结构,不过本发明方法在Conv6_1层后面增加一层Max-pooling层,使得特征图谱维度进一步降低,图片经过10层卷积以及最后一层Max-pooling层后得到10×3×1024大小的特征图谱,将其拉伸为一维的特征向量输入到全连接层进行机器人相机位姿的回归。S102步骤的损失函数为:
S103:将整个网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个网络,更新迭代参数,使网络预测准确率小于第二预设阈值。
具体的,S103步骤中,将“特征提取模块”分离出来(去掉预训练网络中的全连接层),保留该子模块的参数,然后设初始学习率为10-4,重新用准备好的数据训练带“特征提取模块”的整个网络进行全局调整,网络预测准确率小于第二预设阈值时进行测试集测试达到一定误差之内即训练模型成功。S103步骤的损失函数为:
其中,(P1ij,φ1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;(P2ij,φ2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值;是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。
以上所述仅为发明的具体实施案例,本发明的技术特征并不局限于此,任何相关领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的保护范围之中。
Claims (5)
1.一种基于深度学习的估计机器人位姿方法,其特征在于,所述方法包括:
步骤一、确定传感器以及传感器的参数;
步骤二、确定所需训练数据要求,利用标签文件生成训练集、验证集和测试集,使用数据增强手段:隔帧增强、时序增强;
步骤三、搭建深度神经网络,包括确定网络结构为两个子模块、确定网络初始超参数和确定网络损失函数,所述两个子模块分别为特征提取模块和记忆传播模块;
步骤四、利用步骤二准备的训练集预训练搭建好的深度神经网络中的特征提取模块,更新特征提取模块的迭代参数,使特征提取模块输出收敛至第一预设阈值;
步骤五、将整个深度神经网络在训练好的子模块的基础上进行全局调整,使用确定的训练集和验证集上训练整个深度神经网络,更新迭代参数,使网络预测准确率小于第二预设阈值;
步骤六、在测试集上进行网络模型的测试。
2.根据权利要求1所述的方法,其特征在于,在所述步骤一中,传感器类型为单目RGB相机。
3.根据权利要求1所述的方法,其特征在于,在所述步骤二中,训练集数据采用KITTIVO/SLAM标准数据集,标签文件为相邻两张RGB图片相对的位姿变换真值;数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况,将相邻两帧数据增强至相隔若干帧取一帧数据,时序增强是指为了模拟机器人速度逆向的情况,将准备的数据逆向输入,同时对网络的前向预测和逆向预测起到一个限制的作用。
4.根据权利要求1所述的方法,其特征在于,在所述步骤三中:
所述特征提取模块和记忆传播模块分别为深层级联卷积神经网络和栈式循环卷积神经网络,深层级联卷积神经网络用于提取相邻两帧RGB图片中丰富的纹理信息所包含的几何关系,并编码成二维特征向量;栈式循环卷积神经网络输入编码向量进行记忆传播,最终输出结果为预测的机器人上相机的位姿;
预训练深度神经网络的损失函数为:
方法中整个深度神经网络的损失函数为:
5.根据权利要求1所述的方法,其特征在于,在所述步骤四中,特征提取模块本身也具有预测机器人相机位姿的能力,特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求,训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910565280.3A CN111508024A (zh) | 2019-06-27 | 2019-06-27 | 一种基于深度学习估计机器人位姿的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910565280.3A CN111508024A (zh) | 2019-06-27 | 2019-06-27 | 一种基于深度学习估计机器人位姿的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111508024A true CN111508024A (zh) | 2020-08-07 |
Family
ID=71876080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910565280.3A Pending CN111508024A (zh) | 2019-06-27 | 2019-06-27 | 一种基于深度学习估计机器人位姿的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508024A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168783A (zh) * | 2021-12-03 | 2022-03-11 | 北京航空航天大学 | 基于记忆库机制的多场景位姿回归方法及系统 |
CN114593735A (zh) * | 2022-01-26 | 2022-06-07 | 奥比中光科技集团股份有限公司 | 一种位姿预测方法及装置 |
CN114593735B (zh) * | 2022-01-26 | 2024-05-31 | 奥比中光科技集团股份有限公司 | 一种位姿预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108227735A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 基于视觉飞行自稳定的方法、计算机可读介质和系统 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物体位姿估计方法及装置 |
-
2019
- 2019-06-27 CN CN201910565280.3A patent/CN111508024A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108227735A (zh) * | 2016-12-22 | 2018-06-29 | Tcl集团股份有限公司 | 基于视觉飞行自稳定的方法、计算机可读介质和系统 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物体位姿估计方法及装置 |
Non-Patent Citations (1)
Title |
---|
GUANGYAO ZHAI等: "PoseConvGRU: A Monocular Approach for Visual Ego-motion Estimation by Learning", 《ARXIV:1906.08095V1 [CS.CV]》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168783A (zh) * | 2021-12-03 | 2022-03-11 | 北京航空航天大学 | 基于记忆库机制的多场景位姿回归方法及系统 |
CN114593735A (zh) * | 2022-01-26 | 2022-06-07 | 奥比中光科技集团股份有限公司 | 一种位姿预测方法及装置 |
CN114593735B (zh) * | 2022-01-26 | 2024-05-31 | 奥比中光科技集团股份有限公司 | 一种位姿预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN108510485B (zh) | 一种基于卷积神经网络的无参照图像质量评估方法 | |
CN110717527B (zh) | 结合空洞空间金字塔结构的目标检测模型确定方法 | |
CN111340814B (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN107103285B (zh) | 基于卷积神经网络的人脸深度预测方法 | |
CN107204010A (zh) | 一种单目图像深度估计方法与系统 | |
CN107909150B (zh) | 基于逐块随机梯度下降法在线训练cnn的方法与系统 | |
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN112200057B (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN108664885B (zh) | 基于多尺度级联HourGlass网络的人体关键点检测方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
WO2021051526A1 (zh) | 多视图3d人体姿态估计方法及相关装置 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN112084911B (zh) | 一种基于全局注意力的人脸特征点定位方法及系统 | |
CN111062326A (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN113673510A (zh) | 一种结合特征点和锚框共同预测和回归的目标检测算法 | |
CN106952304A (zh) | 一种利用视频序列帧间相关性的深度图像计算方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
WO2023221608A1 (zh) | 口罩识别模型的训练方法、装置、设备及存储介质 | |
Yan et al. | Improved target detection algorithm based on YOLO | |
WO2024017093A1 (zh) | 图像生成方法、模型训练方法、相关装置及电子设备 | |
CN115797808A (zh) | 一种无人机巡检缺陷图像的识别方法、系统、装置及介质 | |
CN115860091A (zh) | 一种基于正交约束的深度特征描述符学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200807 |
|
WD01 | Invention patent application deemed withdrawn after publication |