CN108416428B

CN108416428B - 一种基于卷积神经网络的机器人视觉定位方法

Info

Publication number: CN108416428B
Application number: CN201810169837.7A
Authority: CN
Inventors: 杨力; 叶炳跃
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2021-09-14
Anticipated expiration: 2038-02-28
Also published as: CN108416428A

Abstract

本发明公开了一种机器人视觉定位方法，包括图像采集和训练样本标签生成、算法训练、测试三个步骤，步骤一、图像采集和训练样本标签生成：机器人在一特定房间内，摄像头朝上记录多帧连续拍摄的影像，该特定房间天花板上放置由三条直线L₁、L₂、L₃组成的门型标志，摄像头拍摄的每一帧图像都包含门型标志，利用门型标志的三条直线的定位算法来得到物体位姿的闭式解，即旋转角度R和位移T；步骤二、算法训练：采用卷积神经网络训练样本对；步骤三、测试：用生成式对抗网络训练以提高鲁棒性。本发明解决了现有视觉定位系统存在的局限性问题。

Description

一种基于卷积神经网络的机器人视觉定位方法

技术领域

本发明涉及一种机器人定位的方法，更具体地讲，通过训练样本标签生成、算法来准确地识别移动机器人的位置的移动机器人定位方法。

背景技术

视觉定位是通过单个相机或多个相机作为输入估计自身运动的过程。应用领域涵盖机器人、可穿戴计算、增强现实和自动驾驶。

一般的视觉定位根据所使用的相机数目的不同，可以分为单目视觉定位装置和多目视觉定位装置。

单目视觉定位装置：当拍摄到的图片纹理较少，或存在相对运动时，单目视觉定位装置并不能还原出真实的运动距离以及轨迹，这使得单目视觉定位装置无法较准确定位。

发明内容

鉴于上述的分析，本发明旨在提供一种基于单目摄像机的移动机器人定位方法，用以解决现有视觉定位系统存在的局限性问题，如传统视觉定位算法对于过暗或过亮环境不具有很好的适应性。具体具体是方案如下：

一种机器人视觉定位方法，包括图像采集和训练样本标签生成、算法训练、测试三个步骤，

步骤一、图像采集和训练样本标签生成：

机器人在一特定房间内，摄像头朝上记录多帧连续拍摄的影像，该特定房间天花板上放置由三条直线L₁、L₂、L₃组成的门型标志，摄像头拍摄的每一帧图像都包含门型标志，利用门型标志的三条直线的定位算法来得到物体位姿的闭式解，即旋转角度R和位移T；

步骤二、算法训练：

采用卷积神经网络训练样本对；

步骤三、测试：

用生成式对抗网络训练以提高鲁棒性。

进一步的，求解旋转角度R和位移T的算法如下：

采用的摄像机模型为针孔模型，摄像机的内参数包括：焦距f，主点坐标(u₀，v₀)，像素距du，dv；外参数包括旋转矩阵R和平移向量T＝(T_x,T_y,Tz),

设某空间点在世界坐标系下的坐标为(x_w,y_w,z_w),其在摄像机坐标系下的坐标为(x_c,y_c,z_c),则两坐标满足以下变换关系：

它们之间的变换关系可由R和T唯一确定，当坐标变换沿X轴、Y轴、Z轴按右手法则的旋转角度分别为ψ、φ、θ且按ZYX的顺序旋转时，则

r₁₁＝cosθ*cosφ

r₁₂＝sinθ*cosφ

r₁₃＝-sinφ

r₂₁＝cosθ*sinφ*sinψ-sinθ*cosψ

r₂₂＝sinθ*sinφ*sinψ–cosθ*cosψ

r₂₃＝cosφ*sinψ

r₃₁＝cosθ*sinφ*cosψ+sinθ*sinψ

r₃₂＝sinθ*sinφ*cosψ-cosθ*sinψ

r₃₃＝cosφ*cosψ

若摄像头的像平面不平行于L₁和L₃，则门型标志在像平面上的投影直线l₁,l₂,l₃将交于三点，设像平面上三个交点在摄像机坐标系下的坐标分别为q₁(x₁,y₁,f)、q₂(x₂,y₂,f)、q₃(x₃,y₃,f)，坐标值可通过直线l₁,l₂,l₃的直线方程求出；

设l₁,l₂,l₃在像平面上的直线方程分别为

i＝1,2,3,a_i、b_i、c_i为常数，则有：

在摄像机坐标系下，设门型标志的上两端p₁和p₂的坐标分别为(k₁x₁,k₁y₁,k₁f)和(k₂x₁,k₂y₁,k₂f)为待定系数，i＝1,2，其中k_i为待定系数，为交点p_i到摄像机光心的距离与q_i到摄像机光心的距离的比值；

经过计算的到k₁的两个解和平移向量(T_x,T_y,T_z)^T＝(k₁x₁,k₁y₁,k₁f)^T，获得世界坐标系的X轴的准确方向后，对该方向向量进行标准化，得到标准方向向量，最后求出旋转矩阵和三个旋转角后，确定世界坐标系与摄像机坐标系的变换关系；

以连续图像帧作为训练样本对，求两帧图像相对的位移T以及旋转角度R，生成包含位移信息和旋转角度信息的图像样本对，两帧图像相对的位移T以及旋转角度R是通过坐标变换来实现的。

进一步的，卷积神经网络训练如下：

通过前向传播、损失计算、反向传播、权重更新等步骤，以连续两帧图像作为CNN的输入，样本对对应的相对旋转角度作为输出，对CNN网络作第一次训练；

接着用同样两帧图像和其对应的旋转角度为输入，相对平移距离为输出，对该CNN网络作第二次训练，重复上述步骤直至所有样本被训练。

进一步的，用生成式对抗网络训练以提高鲁棒性如下：

使用GAN在原有样本对上输入噪声，构造出过亮或过暗场景的样本对，用生成的对抗样本来训练上述的CNN，根据最后的输出结果回传损失函数，进一步调整CNN的参数，提高该CNN的鲁棒性。

附图说明

图1是门形摆放示意图；

图2是对CNN进行第一次训练示意图；

图3是对CNN进行第二次训练示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明的机器人视觉定位方法，包括图像采集和训练样本标签生成、算法训练、测试三部分，具体如以下步骤：

1、图像采集和训练样本标签生成：

机器人在一特定房间内，摄像头朝上记录多帧连续拍摄的影像，该特定房间天花板上放置由三条直线组成的门型标志。摄像头拍摄的每一帧图像都包含门型标志，所以可以利用门型标志的三条直线的定位算法来得到物体位姿的闭式解，即旋转角度R和位移T。求解旋转角度R和位移T的算法如下：

采用的摄像机模型为针孔模型，摄像机的内参数包括：焦距f,主点坐标(u₀，v₀)，像素距du，dv；外参数包括旋转矩阵R和平移向量T＝(T_x,T_y,T_z),

r₁₁＝cosθ*cosφ

r₁₂＝sinθ*cosφ

r₁₃＝-sinφ

r₂₁＝cosθ*sinφ*sinψ-sinθ*cosψ

r₂₂＝sinθ*sinφ*sinψ–cosθ*cosψ

r₂₃＝cosφ*sinψ

r₃₁＝cosθ*sinφ*cosψ+sinθ*sinψ

r₃₂＝sinθ*sinφ*cosψ-cosθ*sinψ

r₃₃＝cosφ*cosψ

门形摆放如图1所示：

若像平面不平行于L₁和L₃，则门型标志在像平面上的投影直线l₁,l₂,l₃将交于三点，设像平面上三个交点在摄像机坐标系下的坐标分别为q₁(x₁,y₁,f)、q₂(x₂,y₂,f)、q₃(x₃,y₃,f)，坐标值可通过直线l₁,l₂,l₃的直线方程求出。

设l₁,l₂,l₃在像平面上的直线方程分别为

(i＝1,2,3,a_i、b_i、c_i为常数)，则有：

在摄像机坐标系下，设p₁和p₂的坐标分别为(k₁x₁,k₁y₁,k₁f)和(k₂x₁,k₂y₁,k₂f)为待定系数,其中k_i(i＝1,2)为待定系数，k_i的几何意义为交点p_i到摄像机光心的距离与q_i到摄像机光心的距离的比值。

接着经过计算的到k₁的两个解和平移向量(T_x,T_y,T_z)^T＝(k₁x₁,k₁y₁,k₁f)^T，获得世界坐标系的X轴的准确方向后，对该方向向量进行标准化，得到标准方向向量，最后求出旋转矩阵和三个旋转角后，可完全确定世界坐标系与摄像机坐标系的变换关系。

上述生成的只是单帧图像的标签信息，接着我们要以连续图像帧作为训练样本对，求两帧图像相对的位移T以及旋转角度R，生成包含位移信息和旋转角度信息的图像样本对，这里的两帧图像相对的位移T以及旋转角度R是通过坐标变换来实现的。

2、卷积神经网络训练：

如图1所示，通过前向传播、损失计算、反向传播、权重更新等步骤，以连续两帧图像作为CNN(Convolutional Neural Network,卷积神经网络)的输入，样本对对应的相对旋转角度作为输出，对CNN网络作第一次训练。

如图2所示，接着用同样两帧图像和其对应的旋转角度为输入，相对平移距离为输出，对该CNN网络作第二次训练。重复上述步骤直至所有样本被训练。3、测试

用生成式对抗网络训练以提高鲁棒性：

使用GAN(Generative Adversarial Networks，生成式对抗网络)在原有样本对上输入噪声，构造出过亮或过暗场景的样本对，用生成的对抗样本来训练上述的CNN，根据最后的输出结果回传损失函数，进一步调整CNN的参数，提高该CNN的鲁棒性。

Claims

1.一种机器人视觉定位方法，包括图像采集和训练样本标签生成、算法训练、测试三个步骤，其特征在于：

步骤一、图像采集和训练样本标签生成：

机器人在一特定房间内，摄像头朝上记录多帧连续拍摄的影像，该特定房间天花板上放置由三条直线L₁、L₂、L₃组成的门型平面靶标，摄像头拍摄的每一帧图像都包含门型标志，利用门型标志的三条直线的定位算法来得到摄像头位姿的闭式解，即旋转角度R和位移T；

步骤二、算法训练：

采用卷积神经网络训练样本对，以连续图像帧作为训练样本对，求两帧图像相对的位移T以及旋转角度R，生成包含位移信息和旋转角度信息的图像样本对，第一次训练以连续两帧图像作为CNN的输入，样本对对应的相对旋转角度作为输出，第二次训练用同样两帧图像和其对应的旋转角度为输入，相对平移距离为输出；

步骤三、测试：

用生成式对抗网络训练以提高鲁棒性，使用GAN在原有样本对上输入噪声，构造出过亮或过暗场景的样本对，用生成的对抗样本来训练上述的CNN，根据最后的输出结果回传损失函数，进一步调整CNN的参数，提高该CNN的鲁棒性。

2.如权利要求1所述的机器人视觉定位方法，其特征在于：

求解旋转角度R和位移T的算法如下：

采用的摄像机模型为针孔模型，摄像机的内参数包括：焦距f，主点坐标(u₀，v₀)，像素距du，dv；外参数包括旋转矩阵R和平移向量T＝(T_x,T_y,T_z),

r₁₁＝cosθ*cosφ

r₁₂＝sinθ*cosφ

r₁₃＝-sinφ

r₂₁＝cosθ*sinφ*sinψ-sinθ*cosψ

r₂₂＝sinθ*sinφ*sinψ–cosθ*cosψ

r₂₃＝cosφ*sinψ

r₃₁＝cosθ*sinφ*cosψ+sinθ*sinψ

r₃₂＝sinθ*sinφ*cosψ-cosθ*sinψ

r₃₃＝cosφ*cosψ

设l₁,l₂,l₃在像平面上的直线方程分别为a_ix+b_iy+c_i＝0，i＝1,2,3,a_i、b_i、c_i为常数，则有：

在摄像机坐标系下，设门型标志的上两端p₁和p₂的坐标分别为(k₁x₁,k₁y₁,k₁f)和(k₂x₁,k₂y₁,k₂f)，其中k_i为待定系数，i＝1,2，k_i为交点p_i到摄像机光心的距离与q_i到摄像机光心的距离的比值；

经过计算得到k₁的两个解和平移向量(T_x,T_y,T_z)^T＝(k₁x₁,k₁y₁,k₁f)^T，获得世界坐标系的X轴的准确方向后，对该方向向量进行标准化，得到标准方向向量，最后求出旋转矩阵和三个旋转角后，确定世界坐标系与摄像机坐标系的变换关系；

3.如权利要求1所述的机器人视觉定位方法，其特征在于：

卷积神经网络训练如下：