CN114004883B

CN114004883B - 一种冰壶球的视觉感知方法、装置、计算机设备和存储介质

Info

Publication number: CN114004883B
Application number: CN202111162254.XA
Authority: CN
Inventors: 姜宇; 金晶; 李丹丹; 赵悦
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2024-05-03
Anticipated expiration: 2041-09-30
Also published as: CN114004883A

Abstract

本发明是一种冰壶球的视觉感知方法、装置、计算机设备和存储介质。本发明涉及冰壶球的视觉感知技术领域，本发明基于仿真环境生成的位姿估计训练数据，搭建并训练位姿估计网络，对冰壶球在相机坐标系下的位姿进行预测；搭建冰壶球位姿估计网络结构，对输入的冰壶球彩色图像对应的分割图像进行重建，对三维位置和姿态信息进行回归；通过深度相机获取深度图像，提取冰壶球的点云数据，以位姿估计网络的输出结果作为初值，将测量得到的冰壶球点云数据和冰壶球模型点云进行配准，对相机外参数的标定，对定位结果进行坐标转换，获得冰壶球在世界坐标系下的三维位姿。

Description

一种冰壶球的视觉感知方法、装置、计算机设备和存储介质

技术领域

本发明涉及冰壶球的视觉感知技术领域，是一种冰壶球的视觉感知方法、装置、计算机设备和存储介质。

背景技术

通常机器人对冰壶球的检测是获得冰壶球在图像坐标系下的二维边界框。在实际任务中，机器人更为经常用到的是冰壶球三维位置和三维姿态信息。与之相比，冰壶球的边界框仅包含二维图像坐标，缺少冰壶球的深度和姿态信息，而且二维边界框的中心和冰壶球实际中心通常并不重合。特别是在冰壶机器人比赛中，投掷机器人常常需要知道冰壶球与自身的相对位置和姿态来进行取壶过程，而精确测量大本营处冰壶球落点位置对策略生成也至关重要。

发明内容

本发明基于仿真环境生成的冰壶球位姿估计训练数据，搭建并训练位姿估计网络，实现对冰壶球在相机坐标系下的位姿的预测。基于单目图像结合深度信息，使用迭代最近点算法(ICP)对估计结果进行修正，实现高精度的冰壶球三维位置和姿态估计。

本发明提供了一种冰壶球的视觉感知方法、装置、计算机设备和存储介质，本发明提供了以下技术方案：

一种冰壶球的视觉感知方法，包括以下步骤：

步骤1：基于仿真环境生成的位姿估计训练数据，搭建并训练位姿估计网络，对冰壶球在相机坐标系下的位姿进行预测；

步骤2：搭建冰壶球位姿估计网络结构，对输入的冰壶球彩色图像对应的分割图像进行重建，对三维位置和姿态信息进行回归；

步骤3：通过深度相机获取深度图像，提取冰壶球的点云数据，以位姿估计网络的输出结果作为初值，将测量得到的冰壶球点云数据和冰壶球模型点云进行配准，对相机外参数的标定，对定位结果进行坐标转换，获得冰壶球在世界坐标系下的三维位姿。

优选的，述步骤1具体为：

步骤1.1：搭建冰壶运动仿真环境，并在大本营区域以0.5m为间隔，等间距地放置了五行五列的冰壶球，结合域随机化机制对冰壶位置、相机位姿、光照方向和强度、障碍物、目标材质进行随机调整，获得自动标注后的冰壶球位姿估计仿真训练数据；

步骤1.2：获取冰壶球在彩色图像中的边界框信息；设冰壶球信息为[x_b y_b w_b h_b]^T，原始边界框信息为[x₁ y₁ x₂ y₂]^T，其中，(x₁,y₁)和(x₂,y₂)分别为边界框左上和右下的图像坐标，W、H分别为图像的宽和高，通过下式确定归一化后的冰壶球信息：

其中，x_b、y_b分别代表冰壶球中心的图像坐标，w_b和h_b代表冰壶球的宽、高

步骤1.3：定义冰壶球相对于相机的三维位置和姿态，设冰壶球三维位置为[x_c y_cz_c]^T，设冰壶球相对于相机的实际位置为[X Y Z]^T，则从[x_c y_c z_c]^T恢复实际位置通过下式表示：

其中，x_c和y_c是冰壶球中心图像坐标归一化后的结果；

Z＝z_c (7)

其中，z_c是冰壶球中心距离相机的实际深度；

采用四元数来表示冰壶球旋转，通过下式表示：

q＝w+xi+yj+zk (8)

通过四元数[w,x,y,z]的四维向量表示冰壶球的姿态信息。

优选的，所述步骤2具体为：

步骤2.1:建立编码器模块，输入为形状为(3,128,128)的彩色图像，采用步长为2、核尺寸为5的卷积层对该图像进行下采样，用于对输入进行特征提取，压缩为维度是128的特征向量；

步骤2.2：建立边界框特征嵌入模块，输入为对应目标的边界框信息，包括归一化后的[x_b y_b w_b h_b]^T，分别对应目标边界框中心的水平、垂直坐标和边界框的宽、高；

经过全连接层输出维度为128的特征向量，特征向量与编码器输出的128维的特征向量进行拼接，最终得到一个256维的特征向量，包含了目标的位姿信息；

步骤2.3：建立解码器模块，采用反卷积，对256维的特征向量进行上采样，最终输出一个大小为(1，,128,128)的张量，对应输入图像的分割图像，用于迫使网络学习到目标的形状信息；

步骤2.4：建立回归模块，包括姿态回归和位置回归，分别用于输出目标的姿态和位置信息，其中目标的姿态信息通过四元数进行表示；

步骤2.5：建立损失函数，对于位置损失，当T＝[X Y Z]^T为目标在相机坐标系下的坐标，分别对目标中心在图像坐标系下的坐标c＝[x_c y_c]和目标距相机的深度Z进行预测。

优选的，当网络估计出c和深度Z，根据式(5)和(6)进一步恢复出X和Y；位置损失的计算通过下式表示：

对于姿态损失，计算真实四元数q和预测四元数之间的反余弦距离，即两个四元数之间的夹角作为损失，通过下式计算夹角：

根据结合位置损失和姿态损失，通过下式表示损失函数：

优选的，所述步骤3具体为：

步骤3.1：将目标检测器输出的边界框和原始彩色图像送入位姿估计网络，得到代表冰壶球姿态的四元数q和代表冰壶球位置的三维向量t，同时输出冰壶球的分割图像；通过分割图像，从深度图像中提取并恢复出仅包含冰壶球的三维点云；

步骤3.2：将从深度图中提取出的三维点云作为源点云，冰壶球的三维模型点云作为目标点云，以旋转矩阵R(q)和t为初始值，使用ICP算法将两个点云进行匹配，得到了修正后的两个点云之间的位姿关系R_refined，t_refined；

步骤3.3：在冰壶运动真实场地的大本营中心和最外侧半径为1.83m的圆上放置五枚冰壶球作为测量目标。

优选的，以大本营中心为原点，建立世界坐标系，得到冰壶球的实际位置坐标。

优选的，使用AprilTag完成相机外参的标定，得到深度相机与大本营世界坐标系之间的旋转矩阵R和平移向量t；将深度相机输出的彩色图像和深度图像作为位姿估计网络和ICP算法的输入，获得冰壶球在世界坐标系下的三维位姿。

一种冰壶球的视觉感知装置，所述装置包括：

位姿预测模块，所述位姿预测模块用于基于仿真环境生成的位姿估计训练数据，搭建并训练位姿估计网络，对冰壶球在相机坐标系下的位姿进行预测；

分割图像重建模块，所述分割图像重建模块用于搭建冰壶球位姿估计网络结构，对输入的冰壶球彩色图像对应的分割图像进行重建，对三维位置和姿态信息进行回归；

三维位姿确定模块，所述三维位姿确定模块通过深度相机获取深度图像，提取冰壶球的点云数据，以位姿估计网络的输出结果作为初值，将测量得到的冰壶球点云数据和冰壶球模型点云进行配准，对相机外参数的标定，对定位结果进行坐标转换，获得冰壶球在世界坐标系下的三维位姿。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现步骤1至3中任一项所述方法的步骤。

一种计算机可读存储介质，所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现步骤1至3中任一项所述的方法的步骤。

本发明具有以下有益效果：

本发明的目的是给出一种冰壶球三维位置和姿态的视觉感知方法，该方法适用性强，能够实现多个冰壶球情况的高精度位姿估计。本发明的目的是通过以下技术方案实现的：首先训练位姿估计网络，使用单目图像估计冰壶球相对于相机的三维位置和姿态信息；然后结合深度信息，使用ICP算法对位姿估计的结果进行精调，提升位姿估计精度。使用视觉定位标志符(AprilTag)完成相机外参数的标定，对位姿估计结果进行坐标转换，获得冰壶球在世界坐标系下的坐标。

本发明利用机器人视觉感知系统得到冰壶球在比赛场地中的高精度三维位置和姿态，为机器人抓取冰壶球、运动避障、制定比赛策略提供依据。

附图说明

图1为一种冰壶球的视觉感知方法流程图；

图2为冰壶球仿真训练数据生成流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1-图2所示，本发明提供一种冰壶球的视觉感知方法，包括以下步骤：

步骤2：搭建冰壶球位姿估计网络结构，对输入的冰壶球彩色图像对应的分割图像进行重建，该分割图像仅包含冰壶球和背景两种类别，无论输入冰壶球图像有任何遮挡、噪声、背景和光照条件，该结构都使网络能够学习到冰壶球的形状，自动过滤掉干扰信息，在此基础上，添加的回归层以编码-解码器中间的特征向量为输入，对三维位置和姿态信息进行回归；

步骤3：通过深度相机获取深度图像，提取冰壶球的点云数据，以位姿估计网络的输出结果作为初值，通过迭代最近点(ICP)算法，将测量得到的冰壶球点云数据和冰壶球模型点云进行配准，使用视觉定位标志符(AprilTag)完成相机外参数的标定，对定位结果进行坐标转换，获得冰壶球在世界坐标系下的三维位姿。

具体实施例二：

本申请实施例二与实施例一的区别仅在于：

所述步骤1具体为：

其中，x_c和y_c是冰壶球中心图像坐标归一化后的结果；

Z＝z_c (7)

其中，z_c是冰壶球中心距离相机的实际深度；

采用四元数来表示冰壶球旋转，通过下式表示：

q＝w+xi+yj+zk (8)

通过四元数[w,x,y,z]的四维向量表示冰壶球的姿态信息。

具体实施例三：

本申请实施例三与实施例二的区别仅在于：

所述步骤2具体为：

具体实施例四：

本申请实施例四与实施例三的区别仅在于：

当网络估计出c和深度Z，根据式(5)和(6)进一步恢复出X和Y；位置损失的计算通过下式表示：

根据结合位置损失和姿态损失，通过下式表示损失函数：

具体实施例五：

本申请实施例五与实施例四的区别仅在于：

所述步骤3具体为：

具体实施例六：

本申请实施例六与实施例五的区别仅在于：

以大本营中心为原点，建立世界坐标系，得到冰壶球的实际位置坐标。

具体实施例七：

本申请实施例七与实施例六的区别仅在于：

使用AprilTag完成相机外参的标定，得到深度相机与大本营世界坐标系之间的旋转矩阵R和平移向量t；将深度相机输出的彩色图像和深度图像作为位姿估计网络和ICP算法的输入，获得冰壶球在世界坐标系下的三维位姿。

具体实施例八：

本申请实施例八与实施例七的区别仅在于：

本发明提供一种冰壶球的视觉感知装置，所述装置包括：

具体实施例九：

本申请实施例九与实施例八的区别仅在于：

本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请中实例一至实施例七中任意实施例的方法步骤。

具体实施例十：

本申请实施例十与实施例九的区别仅在于：

本发明提供一种计算机可读存储介质，所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现实现本申请中实例一至实施例七中任意实施例的方法步骤。

以上所述仅是一种冰壶球的视觉感知方法、装置、计算机设备和存储介质的优选实施方式，一种冰壶球的视觉感知方法、装置、计算机设备和存储介质的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种冰壶球的视觉感知方法，其特征是：包括以下步骤：

所述步骤1具体为：

步骤1.3：定义冰壶球相对于相机的三维位置和姿态，设冰壶球三维位置为[x_c y_c z_c]^T，设冰壶球相对于相机的实际位置为[X Y Z]^T，则从[x_c y_c z_c]^T恢复实际位置通过下式表示：

其中，x_c和y_c是冰壶球中心图像坐标归一化后的结果；

Z＝z_c (7)

其中，z_c是冰壶球中心距离相机的实际深度；

采用四元数来表示冰壶球旋转，通过下式表示：

q＝w+xi+yj+zk (8)

通过四元数[w,x,y,z]的四维向量表示冰壶球的姿态信息；

2.根据权利要求1所述的一种冰壶球的视觉感知方法，其特征是：所述步骤2具体为：

步骤2.3：建立解码器模块，采用反卷积，对256维的特征向量进行上采样，最终输出一个大小为(1,128,128)的张量，对应输入图像的分割图像，用于迫使网络学习到目标的形状信息；

3.根据权利要求2所述的一种冰壶球的视觉感知方法，其特征是：当网络估计出c和深度Z，根据式(5)和(6)进一步恢复出X和Y；位置损失的计算通过下式表示：

根据结合位置损失和姿态损失，通过下式表示损失函数：

4.根据权利要求3所述的一种冰壶球的视觉感知方法，其特征是：所述步骤3具体为：

5.根据权利要求4所述的一种冰壶球的视觉感知方法，其特征是：以大本营中心为原点，建立世界坐标系，得到冰壶球的实际位置坐标。

6.根据权利要求5所述的一种冰壶球的视觉感知方法，其特征是：使用AprilTag完成相机外参的标定，得到深度相机与大本营世界坐标系之间的旋转矩阵R和平移向量t；将深度相机输出的彩色图像和深度图像作为位姿估计网络和ICP算法的输入，获得冰壶球在世界坐标系下的三维位姿。

7.一种冰壶球的视觉感知装置，所述装置是基于如权利要求1的一种冰壶球的视觉感知方法实现的，其特征是：所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征是：所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，所述介质上存储有计算机程序，其特征是：所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。