CN113256724B

CN113256724B - 一种手柄inside-out视觉6自由度定位方法及系统

Info

Publication number: CN113256724B
Application number: CN202110764994.4A
Authority: CN
Inventors: 郑皓; 郭威
Original assignee: Shanghai Shadow Creator Information Technology Co Ltd
Current assignee: Shanghai Shadow Creator Information Technology Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-24
Anticipated expiration: 2041-07-07
Also published as: WO2023280082A1; CN113256724A

Abstract

本发明提供了一种手柄inside‑out视觉6自由度定位方法及系统，包括：步骤M1：建立基于YOLO架构的深度神经网络；步骤M2：采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理，得到预处理后的带有目标手柄的图片；步骤M3：将预处理后的带有目标手柄的图片输入基于YOLO架构的深度神经网络，通过基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息，根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据，输出手柄的6自由度位姿数据；本发明中手柄和主机都无需额外设计或增加模块用于辅助定位，在形态和功能设计时将有更大的自由度。

Description

一种手柄inside-out视觉6自由度定位方法及系统

技术领域

本发明涉及增强现实AR设备技术领域，具体地，涉及一种手柄inside-out视觉6自由度定位方法及系统，更为具体地，涉及基于深度神经网络的手柄inside-out视觉6自由度定位方法。

背景技术

现有主流的三种inside-out方案都是通过探测特定人造的信号源来模拟手柄的空间位姿。其中声波定位和磁力定位中信号源即为主机/手柄上的声波/磁场发射器，视觉定位则是通过在图像上搜寻手柄上的特定光学标志（如光斑/光带等）将其作为信号源进行定位。如果上述信号源受到干扰，那么手柄的定位精度和稳定性就会受到严重影响。

例如，声波定位方案中如果手柄和声波发射器/接收器间存在插入其他物体即会对定位造成明显干扰；磁力方案中手柄如果靠近金属/墙面/窗框或地面时，由于这些物体会改变空间的磁场分布，因此也将使得定位发生偏移；视觉方案里，如果手柄上的光带/光斑等特征受到遮挡、运动过快在图像上产生模糊/晕影、环境光照太亮/太暗等，也会严重影响定位的精度。

此外上述三种方案中都需要在手柄/主机上安装额外的部件以供定位使用：声波发射/接收装置、磁力线圈和磁力计、特别设计的光带/光球结构等等。这些部件是否能够正常工作也将会影响定位的效果。

现有技术中基于开源YOLO框架（darknet主干+anchor based二维目标区域回归值输出）检测目标物体在二维图像上的所在区域，再结合深度图像推导出目标物体的三维位姿；而基于现有技术的不足，本发明为了直接利用YOLO框架检测三维位姿，目标物体的6自由度位姿信息相较图像上的二维位置信息更加抽象，重新设计了YOLO框架，重新设计的YOLO框架主干网络包括VGG卷积结构以及多层残差结构，并改变了输出层结构（anchorfree的目标6自由度回归值输出），实现了误差为毫米级别的定位精度。

专利文献CN108022302A（申请号：201711248065.8）公开了一种Inside-Out空间定位的AR立体显示装置，包括：头圈、摄像头、IMU单元、数据采集及处理模块、显示屏、半透射/半反射显示板等。数据采集及处理模块对图像进行实时分析，获取场景中物体特征信息，并与IMU线性加速度及旋转角速度进行数据融合，获取三维坐标及姿态信息，由终端设备生成相应位置和方向的虚拟物体影像,送至显示屏；半透射/半反射显示板在透射场景中物体的同时将显示屏中的影像反射到使用者眼中，与实物影像叠加以产生增强现实AR的效果。本发明的实时定位功能可单机实现，无需额外的设备或设置特定标识物，定位准确度高，使得虚拟物体与真实物理空间的结合更精准，装置还具有立体显示功能。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种手柄inside-out视觉6自由度定位方法及系统。

根据本发明提供的一种手柄inside-out视觉6自由度定位方法，包括：

步骤M1：建立基于YOLO架构的深度神经网络；

步骤M2：利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练，得到训练后的基于YOLO架构的深度神经网络；

步骤M3：采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理，得到预处理后的带有目标手柄的图片；

步骤M4：将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络，通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息，根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据，输出手柄的6自由度位姿数据；

所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息，最终通过卷积回归输出手柄的6自由度位姿数据。

优选地，所述步骤M1中基于YOLO架构的深度神经网络包括：多层卷积、最大池化结构、残差结构和输出结构；

利用多层卷积和最大池化结构提取图像中低维特征；利用残差结构提取高维特征，并输出分辨率为预设值的特征层；输出结构使用预设大小的卷积从特征层得到输出层，输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出，从而获取目标手柄的6自由度位姿。

优选地，所述输出层包括：输出层的结构为E*F*(C+B+A)结构的矩阵，其中，A表示手柄的6自由度位姿；B表示对应像素格中是否存在手柄的置信度数据；C表示手柄类别的置信度，E*F表示分辨率。

优选地，所述最大池化是根据需求对图片分辨率进行降维。

优选地，所述残差结构包括：残差结构包括预设残差块，通过残差结构优化网络效率。

优选地，所述步骤M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值。

优选地，所述步骤M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。

根据本发明提供的一种手柄inside-out视觉6自由度定位系统，包括：

模块M1：建立基于YOLO架构的深度神经网络；

模块M2：利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练，得到训练后的基于YOLO架构的深度神经网络；

模块M3：采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理，得到预处理后的带有目标手柄的图片；

模块M4：将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络，通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息，根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据，输出手柄的6自由度位姿数据；

优选地，所述模块M1中基于YOLO架构的深度神经网络包括：多层卷积、最大池化结构、残差结构和输出结构；

利用多层卷积和最大池化结构提取图像中低维特征；利用残差结构提取高维特征，并输出分辨率为预设值的特征层；输出结构使用预设大小的卷积从特征层得到输出层，输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出，从而获取目标手柄的6自由度位姿；

所述最大池化是根据需求对图片分辨率进行降维；

所述输出层包括：输出层的结构为E*F*(C+B+A)结构的矩阵，其中，A表示手柄的6自由度位姿；B表示对应像素格中是否存在手柄的置信度数据；C表示手柄类别的置信度；E*F表示分辨率；

所述残差结构包括：残差结构包括预设残差块，通过残差结构优化网络效率。

优选地，所述模块M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值。

所述模块M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。

与现有技术相比，本发明具有如下的有益效果：

1、本发明中手柄和主机都无需额外设计或增加模块用于辅助定位，在形态和功能设计时将有更大的自由度；

2、本发明定位时不再仅仅重构手柄上特定信号源的三维位姿，而是依据手柄的整体图像特征计算6自由度姿态，对遮挡或其他干扰具有更强的适应力；

3、本发明定位时仅使用相机、主机计算单元等通用器件，不用担心因为定位相关器件失效/损坏等造成使用困难；

4、本发明使用纯视觉捕捉和定位技术，实现了无外设、无附加模块，仅使用单目相机的inside-out定位方案

5、本发明通过深度学习技术，同时实现了高精度和高鲁棒性的手柄6自由度位姿估计；其中手柄捕捉的准确率可以达到95%以上，定位角度偏差小于5度、位置偏差为毫米级别；

6、本发明使用深度网络提取手柄的抽象信息，实现对光照、遮挡、模糊等干扰的适应力，相交其他视觉方法具有更高的稳定性；

7、本发明无外设并不依赖任何特殊模块，对设备小型化和更加自由的形态设计有良好的助益。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为改进后YOLO架构的深度神经网络的结构示意图；

图2为改进后YOLO架构的深度神经网络输出结果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

步骤M1：建立基于YOLO架构的深度神经网络；

所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息，每经过一次卷积操作所提取得到的信息特征便更加丰富，最终通过卷积回归输出手柄的6自由度位姿数据。本发明定位时不再仅仅重构手柄上特定信号源的三维位姿，而是依据手柄的整体图像特征计算6自由度姿态，对遮挡或其他干扰具有更强的适应力；

6自由度位姿数据可以经由检测手柄在图像上呈现的位置、形状、大小等信息结合手柄的三维结构、相机的成像模型等重建得到。本发明所采用的神经网络使用多层递进的卷积计算，从输入的图像上依次提取出重建手柄6自由度位姿所需要的所有抽象特征（形状、大小、颜色等等）。

本发明中手柄和主机都无需额外设计或增加模块用于辅助定位，在形态和功能设计时将有更大的自由度；定位时仅使用相机、主机计算单元等通用器件，不用担心因为定位相关器件失效/损坏等造成使用困难；而且在定位时不再仅仅重构手柄上特定信号源的三维位姿，而是依据手柄的整体图像特征计算6自由度姿态，对遮挡或其他干扰具有更强的适应力；使用纯视觉捕捉和定位技术，实现了无外设、无附加模块，仅使用单目相机的inside-out定位方案。

具体地，如图1所示，所述步骤M1中基于YOLO架构的深度神经网络包括：多层卷积和最大池化结构、残差结构和输出结构；

利用卷积和最大池化作为前五层的结构尽可能完整地提取图像上中低维特征；利用残差结构相较于普通卷积可以更高效地提取高维特征，并输出分辨率为7*7*1024的特征层；输出结构使用1*1卷积从特征层得到输出层，获取目标手柄的6自由度位姿。

具体地，所述最大池化是根据需求对图片分辨率进行降维，例如将图片从224*224变为112*112。

具体地，所述输出层包括：输出层的结构为7*7*(C+B+A)结构的矩阵，其中，A对应的数据是手柄的6自由度位姿，其中x、y、z即为手柄的空间位置坐标，α、β、γ即为手柄姿态的欧拉角；B对应像素格中是否存在手柄的置信度数据；C表示手柄类别的置信度，例如，若需要区分左、右手柄，则C等于2，分别表示该区域内左、右手柄的置信度大小。

本发明通过深度学习技术，同时实现了高精度和高鲁棒性的手柄6自由度位姿估计；其中手柄捕捉的准确率可以达到95%以上，定位角度偏差小于5度、位置偏差为毫米级别；并且使用深度网络提取手柄的抽象信息，实现对光照、遮挡、模糊等干扰的适应力，相交其他视觉方法具有更高的稳定性。

具体地，所述步骤M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值，建议使用224*224为输入。

具体地，所述步骤M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。

具体地，所述残差结构包括：残差结构包括预设残差块，残差块一般分为直接映射部分和残差部分，最后将两部分结果叠加在一起作为后续网络的输入，残差块可以有效解决网络训练和使用过程中计算效率低、过拟合或梯度消失等问题，通过残差结构优化网络效率。

本发明无外设并不依赖任何特殊模块，对设备小型化和更加自由的形态设计有良好的助益。

模块M1：建立基于YOLO架构的深度神经网络；

具体地，如图1所示，所述模块M1中基于YOLO架构的深度神经网络包括：多层卷积和最大池化结构、残差结构和输出结构；

具体地，所述模块M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值，建议使用224*224为输入。

具体地，所述模块M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种手柄inside-out视觉6自由度定位方法，其特征在于，包括：

步骤M1：建立基于YOLO架构的深度神经网络；

所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息，最终通过卷积回归输出手柄的6自由度位姿数据；

所述步骤M1中基于YOLO架构的深度神经网络包括：多层卷积、最大池化结构、残差结构和输出结构；

所述输出层包括：输出层的结构为E*F*(C+B+A)结构的矩阵，其中，A表示手柄的6自由度位姿；B表示对应像素格中是否存在手柄的置信度数据；C表示手柄类别的置信度，E*F表示分辨率。

2.根据权利要求1所述的手柄inside-out视觉6自由度定位方法，其特征在于，所述最大池化是根据需求对图片分辨率进行降维。

3.根据权利要求1所述的手柄inside-out视觉6自由度定位方法，其特征在于，所述残差结构包括：残差结构包括预设残差块，通过残差结构优化网络效率。

4.根据权利要求1所述的手柄inside-out视觉6自由度定位方法，其特征在于，所述步骤M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值。

5.根据权利要求1所述的手柄inside-out视觉6自由度定位方法，其特征在于，所述步骤M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和形状信息。

6.一种手柄inside-out视觉6自由度定位系统，其特征在于，包括：

模块M1：建立基于YOLO架构的深度神经网络；

所述模块M1中基于YOLO架构的深度神经网络包括：多层卷积、最大池化结构、残差结构和输出结构；

所述最大池化是根据需求对图片分辨率进行降维；

7.根据权利要求6所述的手柄inside-out视觉6自由度定位系统，其特征在于，所述模块M3包括：采集单目灰度/RGB相机拍摄带有目标手柄的图像，调整采集图像的分辨率至预设值；

所述模块M4中图像上手柄的物体信息包括：手柄在图像上的亮度、颜色、纹理、位置、大小和形状信息。