CN113256724B - 一种手柄inside-out视觉6自由度定位方法及系统 - Google Patents

一种手柄inside-out视觉6自由度定位方法及系统 Download PDF

Info

Publication number
CN113256724B
CN113256724B CN202110764994.4A CN202110764994A CN113256724B CN 113256724 B CN113256724 B CN 113256724B CN 202110764994 A CN202110764994 A CN 202110764994A CN 113256724 B CN113256724 B CN 113256724B
Authority
CN
China
Prior art keywords
handle
freedom
neural network
deep neural
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110764994.4A
Other languages
English (en)
Other versions
CN113256724A (zh
Inventor
郑皓
郭威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shadow Creator Information Technology Co Ltd
Original Assignee
Shanghai Shadow Creator Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shadow Creator Information Technology Co Ltd filed Critical Shanghai Shadow Creator Information Technology Co Ltd
Priority to CN202110764994.4A priority Critical patent/CN113256724B/zh
Publication of CN113256724A publication Critical patent/CN113256724A/zh
Application granted granted Critical
Publication of CN113256724B publication Critical patent/CN113256724B/zh
Priority to PCT/CN2022/103469 priority patent/WO2023280082A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种手柄inside‑out视觉6自由度定位方法及系统,包括:步骤M1:建立基于YOLO架构的深度神经网络;步骤M2:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;步骤M3:将预处理后的带有目标手柄的图片输入基于YOLO架构的深度神经网络,通过基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;本发明中手柄和主机都无需额外设计或增加模块用于辅助定位,在形态和功能设计时将有更大的自由度。

Description

一种手柄inside-out视觉6自由度定位方法及系统
技术领域
本发明涉及增强现实AR设备技术领域,具体地,涉及一种手柄inside-out视觉6自由度定位方法及系统,更为具体地,涉及基于深度神经网络的手柄inside-out视觉6自由度定位方法。
背景技术
现有主流的三种inside-out方案都是通过探测特定人造的信号源来模拟手柄的空间位姿。其中声波定位和磁力定位中信号源即为主机/手柄上的声波/磁场发射器,视觉定位则是通过在图像上搜寻手柄上的特定光学标志(如光斑/光带等)将其作为信号源进行定位。如果上述信号源受到干扰,那么手柄的定位精度和稳定性就会受到严重影响。
例如,声波定位方案中如果手柄和声波发射器/接收器间存在插入其他物体即会对定位造成明显干扰;磁力方案中手柄如果靠近金属/墙面/窗框或地面时,由于这些物体会改变空间的磁场分布,因此也将使得定位发生偏移;视觉方案里,如果手柄上的光带/光斑等特征受到遮挡、运动过快在图像上产生模糊/晕影、环境光照太亮/太暗等,也会严重影响定位的精度。
此外上述三种方案中都需要在手柄/主机上安装额外的部件以供定位使用:声波发射/接收装置、磁力线圈和磁力计、特别设计的光带/光球结构等等。这些部件是否能够正常工作也将会影响定位的效果。
现有技术中基于开源YOLO框架(darknet主干+anchor based二维目标区域回归值输出)检测目标物体在二维图像上的所在区域,再结合深度图像推导出目标物体的三维位姿;而基于现有技术的不足,本发明为了直接利用YOLO框架检测三维位姿,目标物体的6自由度位姿信息相较图像上的二维位置信息更加抽象,重新设计了YOLO框架,重新设计的YOLO框架主干网络包括VGG卷积结构以及多层残差结构,并改变了输出层结构(anchorfree的目标6自由度回归值输出),实现了误差为毫米级别的定位精度。
专利文献CN108022302A(申请号:201711248065.8)公开了一种Inside-Out空间定位的AR立体显示装置,包括:头圈、摄像头、IMU单元、数据采集及处理模块、显示屏、半透射/半反射显示板等。数据采集及处理模块对图像进行实时分析,获取场景中物体特征信息,并与IMU线性加速度及旋转角速度进行数据融合,获取三维坐标及姿态信息,由终端设备生成相应位置和方向的虚拟物体影像,送至显示屏;半透射/半反射显示板在透射场景中物体的同时将显示屏中的影像反射到使用者眼中,与实物影像叠加以产生增强现实AR的效果。本发明的实时定位功能可单机实现,无需额外的设备或设置特定标识物,定位准确度高,使得虚拟物体与真实物理空间的结合更精准,装置还具有立体显示功能。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种手柄inside-out视觉6自由度定位方法及系统。
根据本发明提供的一种手柄inside-out视觉6自由度定位方法,包括:
步骤M1:建立基于YOLO架构的深度神经网络;
步骤M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
步骤M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
步骤M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,最终通过卷积回归输出手柄的6自由度位姿数据。
优选地,所述步骤M1中基于YOLO架构的深度神经网络包括:多层卷积、最大池化结构、残差结构和输出结构;
利用多层卷积和最大池化结构提取图像中低维特征;利用残差结构提取高维特征,并输出分辨率为预设值的特征层;输出结构使用预设大小的卷积从特征层得到输出层,输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出,从而获取目标手柄的6自由度位姿。
优选地,所述输出层包括:输出层的结构为E*F*(C+B+A)结构的矩阵,其中,A表示手柄的6自由度位姿;B表示对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度,E*F表示分辨率。
优选地,所述最大池化是根据需求对图片分辨率进行降维。
优选地,所述残差结构包括:残差结构包括预设残差块,通过残差结构优化网络效率。
优选地,所述步骤M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值。
优选地,所述步骤M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。
根据本发明提供的一种手柄inside-out视觉6自由度定位系统,包括:
模块M1:建立基于YOLO架构的深度神经网络;
模块M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
模块M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
模块M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,最终通过卷积回归输出手柄的6自由度位姿数据。
优选地,所述模块M1中基于YOLO架构的深度神经网络包括:多层卷积、最大池化结构、残差结构和输出结构;
利用多层卷积和最大池化结构提取图像中低维特征;利用残差结构提取高维特征,并输出分辨率为预设值的特征层;输出结构使用预设大小的卷积从特征层得到输出层,输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出,从而获取目标手柄的6自由度位姿;
所述最大池化是根据需求对图片分辨率进行降维;
所述输出层包括:输出层的结构为E*F*(C+B+A)结构的矩阵,其中,A表示手柄的6自由度位姿;B表示对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度;E*F表示分辨率;
所述残差结构包括:残差结构包括预设残差块,通过残差结构优化网络效率。
优选地,所述模块M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值。
所述模块M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。
与现有技术相比,本发明具有如下的有益效果:
1、本发明中手柄和主机都无需额外设计或增加模块用于辅助定位,在形态和功能设计时将有更大的自由度;
2、本发明定位时不再仅仅重构手柄上特定信号源的三维位姿,而是依据手柄的整体图像特征计算6自由度姿态,对遮挡或其他干扰具有更强的适应力;
3、本发明定位时仅使用相机、主机计算单元等通用器件,不用担心因为定位相关器件失效/损坏等造成使用困难;
4、本发明使用纯视觉捕捉和定位技术,实现了无外设、无附加模块,仅使用单目相机的inside-out定位方案
5、本发明通过深度学习技术,同时实现了高精度和高鲁棒性的手柄6自由度位姿估计;其中手柄捕捉的准确率可以达到95%以上,定位角度偏差小于5度、位置偏差为毫米级别;
6、本发明使用深度网络提取手柄的抽象信息,实现对光照、遮挡、模糊等干扰的适应力,相交其他视觉方法具有更高的稳定性;
7、本发明无外设并不依赖任何特殊模块,对设备小型化和更加自由的形态设计有良好的助益。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为改进后YOLO架构的深度神经网络的结构示意图;
图2为改进后YOLO架构的深度神经网络输出结果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
根据本发明提供的一种手柄inside-out视觉6自由度定位方法,包括:
步骤M1:建立基于YOLO架构的深度神经网络;
步骤M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
步骤M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
步骤M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,每经过一次卷积操作所提取得到的信息特征便更加丰富,最终通过卷积回归输出手柄的6自由度位姿数据。本发明定位时不再仅仅重构手柄上特定信号源的三维位姿,而是依据手柄的整体图像特征计算6自由度姿态,对遮挡或其他干扰具有更强的适应力;
6自由度位姿数据可以经由检测手柄在图像上呈现的位置、形状、大小等信息结合手柄的三维结构、相机的成像模型等重建得到。本发明所采用的神经网络使用多层递进的卷积计算,从输入的图像上依次提取出重建手柄6自由度位姿所需要的所有抽象特征(形状、大小、颜色等等)。
本发明中手柄和主机都无需额外设计或增加模块用于辅助定位,在形态和功能设计时将有更大的自由度;定位时仅使用相机、主机计算单元等通用器件,不用担心因为定位相关器件失效/损坏等造成使用困难;而且在定位时不再仅仅重构手柄上特定信号源的三维位姿,而是依据手柄的整体图像特征计算6自由度姿态,对遮挡或其他干扰具有更强的适应力;使用纯视觉捕捉和定位技术,实现了无外设、无附加模块,仅使用单目相机的inside-out定位方案。
具体地,如图1所示,所述步骤M1中基于YOLO架构的深度神经网络包括:多层卷积和最大池化结构、残差结构和输出结构;
利用卷积和最大池化作为前五层的结构尽可能完整地提取图像上中低维特征;利用残差结构相较于普通卷积可以更高效地提取高维特征,并输出分辨率为7*7*1024的特征层;输出结构使用1*1卷积从特征层得到输出层,获取目标手柄的6自由度位姿。
具体地,所述最大池化是根据需求对图片分辨率进行降维,例如将图片从224*224变为112*112。
具体地,所述输出层包括:输出层的结构为7*7*(C+B+A)结构的矩阵,其中,A对应的数据是手柄的6自由度位姿,其中x、y、z即为手柄的空间位置坐标,α、β、γ即为手柄姿态的欧拉角;B对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度,例如,若需要区分左、右手柄,则C等于2,分别表示该区域内左、右手柄的置信度大小。
本发明通过深度学习技术,同时实现了高精度和高鲁棒性的手柄6自由度位姿估计;其中手柄捕捉的准确率可以达到95%以上,定位角度偏差小于5度、位置偏差为毫米级别;并且使用深度网络提取手柄的抽象信息,实现对光照、遮挡、模糊等干扰的适应力,相交其他视觉方法具有更高的稳定性。
具体地,所述步骤M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值,建议使用224*224为输入。
具体地,所述步骤M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。
具体地,所述残差结构包括:残差结构包括预设残差块,残差块一般分为直接映射部分和残差部分,最后将两部分结果叠加在一起作为后续网络的输入,残差块可以有效解决网络训练和使用过程中计算效率低、过拟合或梯度消失等问题,通过残差结构优化网络效率。
本发明无外设并不依赖任何特殊模块,对设备小型化和更加自由的形态设计有良好的助益。
根据本发明提供的一种手柄inside-out视觉6自由度定位系统,包括:
模块M1:建立基于YOLO架构的深度神经网络;
模块M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
模块M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
模块M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,每经过一次卷积操作所提取得到的信息特征便更加丰富,最终通过卷积回归输出手柄的6自由度位姿数据。本发明定位时不再仅仅重构手柄上特定信号源的三维位姿,而是依据手柄的整体图像特征计算6自由度姿态,对遮挡或其他干扰具有更强的适应力;
6自由度位姿数据可以经由检测手柄在图像上呈现的位置、形状、大小等信息结合手柄的三维结构、相机的成像模型等重建得到。本发明所采用的神经网络使用多层递进的卷积计算,从输入的图像上依次提取出重建手柄6自由度位姿所需要的所有抽象特征(形状、大小、颜色等等)。
本发明中手柄和主机都无需额外设计或增加模块用于辅助定位,在形态和功能设计时将有更大的自由度;定位时仅使用相机、主机计算单元等通用器件,不用担心因为定位相关器件失效/损坏等造成使用困难;而且在定位时不再仅仅重构手柄上特定信号源的三维位姿,而是依据手柄的整体图像特征计算6自由度姿态,对遮挡或其他干扰具有更强的适应力;使用纯视觉捕捉和定位技术,实现了无外设、无附加模块,仅使用单目相机的inside-out定位方案。
具体地,如图1所示,所述模块M1中基于YOLO架构的深度神经网络包括:多层卷积和最大池化结构、残差结构和输出结构;
利用卷积和最大池化作为前五层的结构尽可能完整地提取图像上中低维特征;利用残差结构相较于普通卷积可以更高效地提取高维特征,并输出分辨率为7*7*1024的特征层;输出结构使用1*1卷积从特征层得到输出层,获取目标手柄的6自由度位姿。
具体地,所述最大池化是根据需求对图片分辨率进行降维,例如将图片从224*224变为112*112。
具体地,所述输出层包括:输出层的结构为7*7*(C+B+A)结构的矩阵,其中,A对应的数据是手柄的6自由度位姿,其中x、y、z即为手柄的空间位置坐标,α、β、γ即为手柄姿态的欧拉角;B对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度,例如,若需要区分左、右手柄,则C等于2,分别表示该区域内左、右手柄的置信度大小。
本发明通过深度学习技术,同时实现了高精度和高鲁棒性的手柄6自由度位姿估计;其中手柄捕捉的准确率可以达到95%以上,定位角度偏差小于5度、位置偏差为毫米级别;并且使用深度网络提取手柄的抽象信息,实现对光照、遮挡、模糊等干扰的适应力,相交其他视觉方法具有更高的稳定性。
具体地,所述模块M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值,建议使用224*224为输入。
具体地,所述模块M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和/形状信息。
具体地,所述残差结构包括:残差结构包括预设残差块,残差块一般分为直接映射部分和残差部分,最后将两部分结果叠加在一起作为后续网络的输入,残差块可以有效解决网络训练和使用过程中计算效率低、过拟合或梯度消失等问题,通过残差结构优化网络效率。
本发明无外设并不依赖任何特殊模块,对设备小型化和更加自由的形态设计有良好的助益。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种手柄inside-out视觉6自由度定位方法,其特征在于,包括:
步骤M1:建立基于YOLO架构的深度神经网络;
步骤M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
步骤M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
步骤M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,最终通过卷积回归输出手柄的6自由度位姿数据;
所述步骤M1中基于YOLO架构的深度神经网络包括:多层卷积、最大池化结构、残差结构和输出结构;
利用多层卷积和最大池化结构提取图像中低维特征;利用残差结构提取高维特征,并输出分辨率为预设值的特征层;输出结构使用预设大小的卷积从特征层得到输出层,输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出,从而获取目标手柄的6自由度位姿;
所述输出层包括:输出层的结构为E*F*(C+B+A)结构的矩阵,其中,A表示手柄的6自由度位姿;B表示对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度,E*F表示分辨率。
2.根据权利要求1所述的手柄inside-out视觉6自由度定位方法,其特征在于,所述最大池化是根据需求对图片分辨率进行降维。
3.根据权利要求1所述的手柄inside-out视觉6自由度定位方法,其特征在于,所述残差结构包括:残差结构包括预设残差块,通过残差结构优化网络效率。
4.根据权利要求1所述的手柄inside-out视觉6自由度定位方法,其特征在于,所述步骤M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值。
5.根据权利要求1所述的手柄inside-out视觉6自由度定位方法,其特征在于,所述步骤M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和形状信息。
6.一种手柄inside-out视觉6自由度定位系统,其特征在于,包括:
模块M1:建立基于YOLO架构的深度神经网络;
模块M2:利用带有目标手柄6自由度位姿标注的数据对基于YOLO架构的深度神经网络进行训练,得到训练后的基于YOLO架构的深度神经网络;
模块M3:采集拍摄带有目标手柄的图片并对采集的带有目标手柄的图片进行预处理,得到预处理后的带有目标手柄的图片;
模块M4:将预处理后的带有目标手柄的图片输入训练后的基于YOLO架构的深度神经网络,通过训练后的基于YOLO架构的深度神经网络提取图像上目标手柄的物体信息,根据提取图像上手柄的物体信息得到手柄的三维坐标和指向数据,输出手柄的6自由度位姿数据;
所述基于YOLO架构的深度神经网络利用深度神经网络通过卷积计算逐次提取物体信息,最终通过卷积回归输出手柄的6自由度位姿数据;
所述模块M1中基于YOLO架构的深度神经网络包括:多层卷积、最大池化结构、残差结构和输出结构;
利用多层卷积和最大池化结构提取图像中低维特征;利用残差结构提取高维特征,并输出分辨率为预设值的特征层;输出结构使用预设大小的卷积从特征层得到输出层,输出层使用anchor free的目标6自由度位姿回归值作为基于YOLO架构的深度神经网络的输出,从而获取目标手柄的6自由度位姿;
所述最大池化是根据需求对图片分辨率进行降维;
所述输出层包括:输出层的结构为E*F*(C+B+A)结构的矩阵,其中,A表示手柄的6自由度位姿;B表示对应像素格中是否存在手柄的置信度数据;C表示手柄类别的置信度;E*F表示分辨率;
所述残差结构包括:残差结构包括预设残差块,通过残差结构优化网络效率。
7.根据权利要求6所述的手柄inside-out视觉6自由度定位系统,其特征在于,所述模块M3包括:采集单目灰度/RGB相机拍摄带有目标手柄的图像,调整采集图像的分辨率至预设值;
所述模块M4中图像上手柄的物体信息包括:手柄在图像上的亮度、颜色、纹理、位置、大小和形状信息。
CN202110764994.4A 2021-07-07 2021-07-07 一种手柄inside-out视觉6自由度定位方法及系统 Active CN113256724B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110764994.4A CN113256724B (zh) 2021-07-07 2021-07-07 一种手柄inside-out视觉6自由度定位方法及系统
PCT/CN2022/103469 WO2023280082A1 (zh) 2021-07-07 2022-07-01 一种手柄inside-out视觉6自由度定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110764994.4A CN113256724B (zh) 2021-07-07 2021-07-07 一种手柄inside-out视觉6自由度定位方法及系统

Publications (2)

Publication Number Publication Date
CN113256724A CN113256724A (zh) 2021-08-13
CN113256724B true CN113256724B (zh) 2021-09-24

Family

ID=77190945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110764994.4A Active CN113256724B (zh) 2021-07-07 2021-07-07 一种手柄inside-out视觉6自由度定位方法及系统

Country Status (2)

Country Link
CN (1) CN113256724B (zh)
WO (1) WO2023280082A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256724B (zh) * 2021-07-07 2021-09-24 上海影创信息科技有限公司 一种手柄inside-out视觉6自由度定位方法及系统
CN117576217B (zh) * 2024-01-12 2024-03-26 电子科技大学 一种基于单实例图像重建的物体位姿估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531218A (zh) * 2019-09-04 2019-12-03 国网四川省电力公司乐山供电公司 一种基于图像轮廓检测的输电线路故障识别系统
CN112381871A (zh) * 2020-10-16 2021-02-19 华东交通大学 一种基于人脸识别的机车警惕装置的实现方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329593B (zh) * 2017-06-28 2020-10-09 歌尔科技有限公司 一种vr手柄定位方法及装置
US10672174B2 (en) * 2018-06-28 2020-06-02 Adobe Inc. Determining image handle locations
CN109684803B (zh) * 2018-12-19 2021-04-20 西安电子科技大学 基于手势滑动的人机验证方法
CN109829476B (zh) * 2018-12-27 2023-02-10 青岛中科慧畅信息科技有限公司 基于yolo的端到端三维物体检测方法
AU2019101133A4 (en) * 2019-09-30 2019-10-31 Bo, Yaxin MISS Fast vehicle detection using augmented dataset based on RetinaNet
CN111610865B (zh) * 2020-05-20 2022-03-22 河北工业大学 一种基于多感知系统的电容式触觉手柄的控制方法
CN112085013A (zh) * 2020-09-07 2020-12-15 上海视可电子科技有限公司 一种牙齿图像采集装置以及图像处理方法
AU2021101646A4 (en) * 2021-03-30 2021-05-20 Tianjin Sino-German University Of Applied Sciences Man-machine cooperative safe operation method based on cooperative trajectory evaluation
CN113256724B (zh) * 2021-07-07 2021-09-24 上海影创信息科技有限公司 一种手柄inside-out视觉6自由度定位方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531218A (zh) * 2019-09-04 2019-12-03 国网四川省电力公司乐山供电公司 一种基于图像轮廓检测的输电线路故障识别系统
CN112381871A (zh) * 2020-10-16 2021-02-19 华东交通大学 一种基于人脸识别的机车警惕装置的实现方法

Also Published As

Publication number Publication date
WO2023280082A1 (zh) 2023-01-12
CN113256724A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111062873B (zh) 一种基于多对双目相机的视差图像拼接与可视化方法
JP7228559B2 (ja) 位置決め要素検出方法、位置決め要素検出装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
Uchiyama et al. MR Platform: A basic body on which mixed reality applications are built
Klein Visual tracking for augmented reality
CN108304075B (zh) 一种在增强现实设备进行人机交互的方法与设备
CN111783820A (zh) 图像标注方法和装置
CN111028155B (zh) 一种基于多对双目相机的视差图像拼接方法
KR20180101496A (ko) 인사이드-아웃 위치, 사용자 신체 및 환경 추적을 갖는 가상 및 혼합 현실을 위한 머리 장착 디스플레이
CN113256724B (zh) 一种手柄inside-out视觉6自由度定位方法及系统
CN108292489A (zh) 信息处理装置和图像生成方法
US10567649B2 (en) Parallax viewer system for 3D content
CN109840949A (zh) 基于光学定位的增强现实图像处理方法和装置
JP2006523067A (ja) 物体上に出力画像を表示する方法
CN106569591A (zh) 基于计算机视觉跟踪和传感器跟踪的跟踪方法和跟踪系统
McGarrity et al. A method for calibrating see-through head-mounted displays for AR
Bradley et al. Image-based navigation in real environments using panoramas
CN108257177A (zh) 基于空间标识的定位系统与方法
JP2002236909A (ja) 画像データ処理方法およびモデリング装置
Schütt et al. Semantic interaction in augmented reality environments for microsoft hololens
CN113016008A (zh) 重力对准影像的机器学习推断
Zheng Spatio-temporal registration in augmented reality
CN109902675A (zh) 物体的位姿获取方法、场景重构的方法和装置
US11158073B2 (en) System for image compositing including training with custom synthetic data
Santos et al. Supporting outdoor mixed reality applications for architecture and cultural heritage
CN112017303B (zh) 一种基于增强现实技术的设备维修辅助方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20221226

Granted publication date: 20210924

PP01 Preservation of patent right