CN108416428B - 一种基于卷积神经网络的机器人视觉定位方法 - Google Patents

一种基于卷积神经网络的机器人视觉定位方法 Download PDF

Info

Publication number
CN108416428B
CN108416428B CN201810169837.7A CN201810169837A CN108416428B CN 108416428 B CN108416428 B CN 108416428B CN 201810169837 A CN201810169837 A CN 201810169837A CN 108416428 B CN108416428 B CN 108416428B
Authority
CN
China
Prior art keywords
training
camera
rotation angle
frames
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810169837.7A
Other languages
English (en)
Other versions
CN108416428A (zh
Inventor
杨力
叶炳跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN201810169837.7A priority Critical patent/CN108416428B/zh
Publication of CN108416428A publication Critical patent/CN108416428A/zh
Application granted granted Critical
Publication of CN108416428B publication Critical patent/CN108416428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种机器人视觉定位方法,包括图像采集和训练样本标签生成、算法训练、测试三个步骤,步骤一、图像采集和训练样本标签生成:机器人在一特定房间内,摄像头朝上记录多帧连续拍摄的影像,该特定房间天花板上放置由三条直线L1、L2、L3组成的门型标志,摄像头拍摄的每一帧图像都包含门型标志,利用门型标志的三条直线的定位算法来得到物体位姿的闭式解,即旋转角度R和位移T;步骤二、算法训练:采用卷积神经网络训练样本对;步骤三、测试:用生成式对抗网络训练以提高鲁棒性。本发明解决了现有视觉定位系统存在的局限性问题。

Description

一种基于卷积神经网络的机器人视觉定位方法
技术领域
本发明涉及一种机器人定位的方法,更具体地讲,通过训练样本标签生成、算法来准确地识别移动机器人的位置的移动机器人定位方法。
背景技术
视觉定位是通过单个相机或多个相机作为输入估计自身运动的过程。应用领域涵盖机器人、可穿戴计算、增强现实和自动驾驶。
一般的视觉定位根据所使用的相机数目的不同,可以分为单目视觉定位装置和多目视觉定位装置。
单目视觉定位装置:当拍摄到的图片纹理较少,或存在相对运动时,单目视觉定位装置并不能还原出真实的运动距离以及轨迹,这使得单目视觉定位装置无法较准确定位。
发明内容
鉴于上述的分析,本发明旨在提供一种基于单目摄像机的移动机器人定位方法,用以解决现有视觉定位系统存在的局限性问题,如传统视觉定位算法对于过暗或过亮环境不具有很好的适应性。具体具体是方案如下:
一种机器人视觉定位方法,包括图像采集和训练样本标签生成、算法训练、测试三个步骤,
步骤一、图像采集和训练样本标签生成:
机器人在一特定房间内,摄像头朝上记录多帧连续拍摄的影像,该特定房间天花板上放置由三条直线L1、L2、L3组成的门型标志,摄像头拍摄的每一帧图像都包含门型标志,利用门型标志的三条直线的定位算法来得到物体位姿的闭式解,即旋转角度R和位移T;
步骤二、算法训练:
采用卷积神经网络训练样本对;
步骤三、测试:
用生成式对抗网络训练以提高鲁棒性。
进一步的,求解旋转角度R和位移T的算法如下:
采用的摄像机模型为针孔模型,摄像机的内参数包括:焦距f,主点坐标(u0,v0),像素距du,dv;外参数包括旋转矩阵R和平移向量T=(Tx,Ty,Tz),
Figure BDA0001584881120000021
设某空间点在世界坐标系下的坐标为(xw,yw,zw),其在摄像机坐标系下的坐标为(xc,yc,zc),则两坐标满足以下变换关系:
Figure BDA0001584881120000022
它们之间的变换关系可由R和T唯一确定,当坐标变换沿X轴、Y轴、Z轴按右手法则的旋转角度分别为ψ、φ、θ且按ZYX的顺序旋转时,则
r11=cosθ*cosφ
r12=sinθ*cosφ
r13=-sinφ
r21=cosθ*sinφ*sinψ-sinθ*cosψ
r22=sinθ*sinφ*sinψ–cosθ*cosψ
r23=cosφ*sinψ
r31=cosθ*sinφ*cosψ+sinθ*sinψ
r32=sinθ*sinφ*cosψ-cosθ*sinψ
r33=cosφ*cosψ
若摄像头的像平面不平行于L1和L3,则门型标志在像平面上的投影直线l1,l2,l3将交于三点,设像平面上三个交点在摄像机坐标系下的坐标分别为q1(x1,y1,f)、q2(x2,y2,f)、q3(x3,y3,f),坐标值可通过直线l1,l2,l3的直线方程求出;
设l1,l2,l3在像平面上的直线方程分别为
Figure BDA0001584881120000034
i=1,2,3,ai、bi、ci为常数,则有:
Figure BDA0001584881120000031
Figure BDA0001584881120000032
Figure BDA0001584881120000033
在摄像机坐标系下,设门型标志的上两端p1和p2的坐标分别为(k1x1,k1y1,k1f)和(k2x1,k2y1,k2f)为待定系数,i=1,2,其中ki为待定系数,为交点pi到摄像机光心的距离与qi到摄像机光心的距离的比值;
经过计算的到k1的两个解和平移向量(Tx,Ty,Tz)T=(k1x1,k1y1,k1f)T,获得世界坐标系的X轴的准确方向后,对该方向向量进行标准化,得到标准方向向量,最后求出旋转矩阵和三个旋转角后,确定世界坐标系与摄像机坐标系的变换关系;
以连续图像帧作为训练样本对,求两帧图像相对的位移T以及旋转角度R,生成包含位移信息和旋转角度信息的图像样本对,两帧图像相对的位移T以及旋转角度R是通过坐标变换来实现的。
进一步的,卷积神经网络训练如下:
通过前向传播、损失计算、反向传播、权重更新等步骤,以连续两帧图像作为CNN的输入,样本对对应的相对旋转角度作为输出,对CNN网络作第一次训练;
接着用同样两帧图像和其对应的旋转角度为输入,相对平移距离为输出,对该CNN网络作第二次训练,重复上述步骤直至所有样本被训练。
进一步的,用生成式对抗网络训练以提高鲁棒性如下:
使用GAN在原有样本对上输入噪声,构造出过亮或过暗场景的样本对,用生成的对抗样本来训练上述的CNN,根据最后的输出结果回传损失函数,进一步调整CNN的参数,提高该CNN的鲁棒性。
附图说明
图1是门形摆放示意图;
图2是对CNN进行第一次训练示意图;
图3是对CNN进行第二次训练示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明的机器人视觉定位方法,包括图像采集和训练样本标签生成、算法训练、测试三部分,具体如以下步骤:
1、图像采集和训练样本标签生成:
机器人在一特定房间内,摄像头朝上记录多帧连续拍摄的影像,该特定房间天花板上放置由三条直线组成的门型标志。摄像头拍摄的每一帧图像都包含门型标志,所以可以利用门型标志的三条直线的定位算法来得到物体位姿的闭式解,即旋转角度R和位移T。求解旋转角度R和位移T的算法如下:
采用的摄像机模型为针孔模型,摄像机的内参数包括:焦距f,主点坐标(u0,v0),像素距du,dv;外参数包括旋转矩阵R和平移向量T=(Tx,Ty,Tz),
Figure BDA0001584881120000041
设某空间点在世界坐标系下的坐标为(xw,yw,zw),其在摄像机坐标系下的坐标为(xc,yc,zc),则两坐标满足以下变换关系:
Figure BDA0001584881120000042
它们之间的变换关系可由R和T唯一确定,当坐标变换沿X轴、Y轴、Z轴按右手法则的旋转角度分别为ψ、φ、θ且按ZYX的顺序旋转时,则
r11=cosθ*cosφ
r12=sinθ*cosφ
r13=-sinφ
r21=cosθ*sinφ*sinψ-sinθ*cosψ
r22=sinθ*sinφ*sinψ–cosθ*cosψ
r23=cosφ*sinψ
r31=cosθ*sinφ*cosψ+sinθ*sinψ
r32=sinθ*sinφ*cosψ-cosθ*sinψ
r33=cosφ*cosψ
门形摆放如图1所示:
若像平面不平行于L1和L3,则门型标志在像平面上的投影直线l1,l2,l3将交于三点,设像平面上三个交点在摄像机坐标系下的坐标分别为q1(x1,y1,f)、q2(x2,y2,f)、q3(x3,y3,f),坐标值可通过直线l1,l2,l3的直线方程求出。
设l1,l2,l3在像平面上的直线方程分别为
Figure BDA0001584881120000054
(i=1,2,3,ai、bi、ci为常数),则有:
Figure BDA0001584881120000051
Figure BDA0001584881120000052
Figure BDA0001584881120000053
在摄像机坐标系下,设p1和p2的坐标分别为(k1x1,k1y1,k1f)和(k2x1,k2y1,k2f)为待定系数,其中ki(i=1,2)为待定系数,ki的几何意义为交点pi到摄像机光心的距离与qi到摄像机光心的距离的比值。
接着经过计算的到k1的两个解和平移向量(Tx,Ty,Tz)T=(k1x1,k1y1,k1f)T,获得世界坐标系的X轴的准确方向后,对该方向向量进行标准化,得到标准方向向量,最后求出旋转矩阵和三个旋转角后,可完全确定世界坐标系与摄像机坐标系的变换关系。
上述生成的只是单帧图像的标签信息,接着我们要以连续图像帧作为训练样本对,求两帧图像相对的位移T以及旋转角度R,生成包含位移信息和旋转角度信息的图像样本对,这里的两帧图像相对的位移T以及旋转角度R是通过坐标变换来实现的。
2、卷积神经网络训练:
如图1所示,通过前向传播、损失计算、反向传播、权重更新等步骤,以连续两帧图像作为CNN(Convolutional Neural Network,卷积神经网络)的输入,样本对对应的相对旋转角度作为输出,对CNN网络作第一次训练。
如图2所示,接着用同样两帧图像和其对应的旋转角度为输入,相对平移距离为输出,对该CNN网络作第二次训练。重复上述步骤直至所有样本被训练。3、测试
用生成式对抗网络训练以提高鲁棒性:
使用GAN(Generative Adversarial Networks,生成式对抗网络)在原有样本对上输入噪声,构造出过亮或过暗场景的样本对,用生成的对抗样本来训练上述的CNN,根据最后的输出结果回传损失函数,进一步调整CNN的参数,提高该CNN的鲁棒性。

Claims (3)

1.一种机器人视觉定位方法,包括图像采集和训练样本标签生成、算法训练、测试三个步骤,其特征在于:
步骤一、图像采集和训练样本标签生成:
机器人在一特定房间内,摄像头朝上记录多帧连续拍摄的影像,该特定房间天花板上放置由三条直线L1、L2、L3组成的门型平面靶标,摄像头拍摄的每一帧图像都包含门型标志,利用门型标志的三条直线的定位算法来得到摄像头位姿的闭式解,即旋转角度R和位移T;
步骤二、算法训练:
采用卷积神经网络训练样本对,以连续图像帧作为训练样本对,求两帧图像相对的位移T以及旋转角度R,生成包含位移信息和旋转角度信息的图像样本对,第一次训练以连续两帧图像作为CNN的输入,样本对对应的相对旋转角度作为输出,第二次训练用同样两帧图像和其对应的旋转角度为输入,相对平移距离为输出;
步骤三、测试:
用生成式对抗网络训练以提高鲁棒性,使用GAN在原有样本对上输入噪声,构造出过亮或过暗场景的样本对,用生成的对抗样本来训练上述的CNN,根据最后的输出结果回传损失函数,进一步调整CNN的参数,提高该CNN的鲁棒性。
2.如权利要求1所述的机器人视觉定位方法,其特征在于:
求解旋转角度R和位移T的算法如下:
采用的摄像机模型为针孔模型,摄像机的内参数包括:焦距f,主点坐标(u0,v0),像素距du,dv;外参数包括旋转矩阵R和平移向量T=(Tx,Ty,Tz),
Figure FDA0003133012210000011
设某空间点在世界坐标系下的坐标为(xw,yw,zw),其在摄像机坐标系下的坐标为(xc,yc,zc),则两坐标满足以下变换关系:
Figure FDA0003133012210000021
它们之间的变换关系可由R和T唯一确定,当坐标变换沿X轴、Y轴、Z轴按右手法则的旋转角度分别为ψ、φ、θ且按ZYX的顺序旋转时,则
r11=cosθ*cosφ
r12=sinθ*cosφ
r13=-sinφ
r21=cosθ*sinφ*sinψ-sinθ*cosψ
r22=sinθ*sinφ*sinψ–cosθ*cosψ
r23=cosφ*sinψ
r31=cosθ*sinφ*cosψ+sinθ*sinψ
r32=sinθ*sinφ*cosψ-cosθ*sinψ
r33=cosφ*cosψ
若摄像头的像平面不平行于L1和L3,则门型标志在像平面上的投影直线l1,l2,l3将交于三点,设像平面上三个交点在摄像机坐标系下的坐标分别为q1(x1,y1,f)、q2(x2,y2,f)、q3(x3,y3,f),坐标值可通过直线l1,l2,l3的直线方程求出;
设l1,l2,l3在像平面上的直线方程分别为aix+biy+ci=0,i=1,2,3,ai、bi、ci为常数,则有:
Figure FDA0003133012210000022
Figure FDA0003133012210000023
Figure FDA0003133012210000024
在摄像机坐标系下,设门型标志的上两端p1和p2的坐标分别为(k1x1,k1y1,k1f)和(k2x1,k2y1,k2f),其中ki为待定系数,i=1,2,ki为交点pi到摄像机光心的距离与qi到摄像机光心的距离的比值;
经过计算得到k1的两个解和平移向量(Tx,Ty,Tz)T=(k1x1,k1y1,k1f)T,获得世界坐标系的X轴的准确方向后,对该方向向量进行标准化,得到标准方向向量,最后求出旋转矩阵和三个旋转角后,确定世界坐标系与摄像机坐标系的变换关系;
以连续图像帧作为训练样本对,求两帧图像相对的位移T以及旋转角度R,生成包含位移信息和旋转角度信息的图像样本对,两帧图像相对的位移T以及旋转角度R是通过坐标变换来实现的。
3.如权利要求1所述的机器人视觉定位方法,其特征在于:
卷积神经网络训练如下:
通过前向传播、损失计算、反向传播、权重更新等步骤,以连续两帧图像作为CNN的输入,样本对对应的相对旋转角度作为输出,对CNN网络作第一次训练;
接着用同样两帧图像和其对应的旋转角度为输入,相对平移距离为输出,对该CNN网络作第二次训练,重复上述步骤直至所有样本被训练。
CN201810169837.7A 2018-02-28 2018-02-28 一种基于卷积神经网络的机器人视觉定位方法 Active CN108416428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810169837.7A CN108416428B (zh) 2018-02-28 2018-02-28 一种基于卷积神经网络的机器人视觉定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810169837.7A CN108416428B (zh) 2018-02-28 2018-02-28 一种基于卷积神经网络的机器人视觉定位方法

Publications (2)

Publication Number Publication Date
CN108416428A CN108416428A (zh) 2018-08-17
CN108416428B true CN108416428B (zh) 2021-09-14

Family

ID=63129559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810169837.7A Active CN108416428B (zh) 2018-02-28 2018-02-28 一种基于卷积神经网络的机器人视觉定位方法

Country Status (1)

Country Link
CN (1) CN108416428B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255390B (zh) * 2018-09-30 2021-01-29 京东方科技集团股份有限公司 训练图像的预处理方法及模块、鉴别器、可读存储介质
AU2019350918B2 (en) 2018-09-30 2021-10-07 Boe Technology Group Co., Ltd. Apparatus and method for image processing, and system for training neural network
CN109509222B (zh) * 2018-10-26 2020-11-03 北京陌上花科技有限公司 直线类物体的检测方法及装置
CN110335312A (zh) * 2019-06-17 2019-10-15 武汉大学 一种基于神经网络的目标空间定位方法及装置
CN112446916A (zh) * 2019-09-02 2021-03-05 北京京东乾石科技有限公司 确定无人车停靠位的方法和装置
CN111080702B (zh) * 2019-12-20 2023-05-23 上海巧视智能科技有限公司 一种基于广义线性模型的平面物体位姿测量方法
CN111524190B (zh) * 2020-07-01 2020-10-02 北京三快在线科技有限公司 视觉定位网络的训练、无人驾驶设备的控制方法及装置
CN111805628B (zh) * 2020-07-21 2022-02-01 上饶师范学院 一种适用于家具板材的高效精准打孔装置
CN112692844A (zh) * 2020-12-15 2021-04-23 大国重器自动化设备(山东)股份有限公司 一种人工智能药物护理机器人的控制方法
CN112686889B (zh) * 2021-01-28 2022-03-25 郑州煤矿机械集团股份有限公司 基于单目视觉自动标签的液压支架推进度检测方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3454698B1 (en) * 2016-05-09 2024-04-17 Grabango Co. System and method for computer vision driven applications within an environment
CN105931255A (zh) * 2016-05-18 2016-09-07 天津工业大学 基于显著性和深度卷积神经网络的图像中目标定位方法
CN106228538B (zh) * 2016-07-12 2018-12-11 哈尔滨工业大学 基于logo的双目视觉室内定位方法
CN106895824A (zh) * 2017-01-24 2017-06-27 国网四川省电力公司检修公司 基于计算机视觉的无人机定位方法
CN107221007A (zh) * 2017-05-12 2017-09-29 同济大学 一种基于图像特征降维的无人车单目视觉定位方法
CN107346436B (zh) * 2017-06-29 2020-03-24 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
CN107527355B (zh) * 2017-07-20 2020-08-11 中国科学院自动化研究所 基于卷积神经网络回归模型的视觉跟踪方法、装置
CN107577996A (zh) * 2017-08-16 2018-01-12 中国地质大学(武汉) 一种车辆驾驶路径偏移的识别方法及系统

Also Published As

Publication number Publication date
CN108416428A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108416428B (zh) 一种基于卷积神经网络的机器人视觉定位方法
CN109308693B (zh) 由一台ptz相机构建的目标检测和位姿测量单双目视觉系统
CN105225269B (zh) 基于运动机构的三维物体建模系统
CN106845515B (zh) 基于虚拟样本深度学习的机器人目标识别和位姿重构方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN108898676B (zh) 一种虚实物体之间碰撞及遮挡检测方法及系统
CN112132894A (zh) 一种基于双目视觉引导的机械臂实时跟踪方法
CN111932678B (zh) 多视点实时人体运动、手势、表情、纹理重建系统
CN110281231B (zh) 无人化fdm增材制造的移动机器人三维视觉抓取方法
Meilland et al. Dense visual mapping of large scale environments for real-time localisation
CN109102525A (zh) 一种基于自适应位姿估计的移动机器人跟随控制方法
CN111260649B (zh) 一种近距离机械臂感知与校准方法
CN113077519B (zh) 一种基于人体骨架提取的多相机外参自动标定方法
CN110298330B (zh) 一种输电线路巡检机器人单目检测与定位方法
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN107564065A (zh) 一种协作环境下人机最小距离的测算方法
CN110796700A (zh) 基于卷积神经网络的多物体抓取区域定位方法
Mittrapiyanumic et al. Calculating the 3d-pose of rigid-objects using active appearance models
Xin et al. 3D augmented reality teleoperated robot system based on dual vision
CN114750154A (zh) 一种配网带电作业机器人的动态目标识别定位与抓取方法
CN210361314U (zh) 一种基于增强现实技术的机器人示教装置
CN114581632A (zh) 基于增强现实技术的零件装配误差检测方法、设备和装置
Caron et al. Tracking planes in omnidirectional stereovision
Kiyokawa et al. Efficient collection and automatic annotation of real-world object images by taking advantage of post-diminished multiple visual markers
CN115719377A (zh) 一种六自由度位姿估计数据集自动采集系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant