CN114546125A - 键盘跟踪方法及跟踪系统 - Google Patents

键盘跟踪方法及跟踪系统 Download PDF

Info

Publication number
CN114546125A
CN114546125A CN202210447228.XA CN202210447228A CN114546125A CN 114546125 A CN114546125 A CN 114546125A CN 202210447228 A CN202210447228 A CN 202210447228A CN 114546125 A CN114546125 A CN 114546125A
Authority
CN
China
Prior art keywords
keyboard
mask
pose
hand
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210447228.XA
Other languages
English (en)
Other versions
CN114546125B (zh
Inventor
张旭
于天慧
邓伯胜
毛文涛
蔡宝军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202210447228.XA priority Critical patent/CN114546125B/zh
Publication of CN114546125A publication Critical patent/CN114546125A/zh
Application granted granted Critical
Publication of CN114546125B publication Critical patent/CN114546125B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种键盘跟踪方法及跟踪系统,键盘跟踪方法包括以下步骤:获取包含键盘和用户手图像的图像序列;利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜;采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿;采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿;获取键盘的型号信息,对所获取型号的键盘的3d位姿和手的掩模进行渲染,完成对键盘的跟踪。本申请使用户能够很自然的使用键盘进行输入,操作方便,提高用户体验。

Description

键盘跟踪方法及跟踪系统
技术领域
本申请属于图像处理技术领域,具体涉及一种键盘跟踪方法及跟踪系统。
背景技术
虚拟现实技术是仿真技术的一个重要分支方向,其利用计算机技术和各种软、硬件工具生成实时动态的、三维立体而且纹理逼真的图像和场景,并能够模仿人类的各种感知,与用户进行交互。从1963年虚拟现实技术萌芽至今,虚拟现实技术的理论已经比较完善,而且近年来,虚拟现实技术在军事仿真、娱乐游戏、医疗、建筑等多个行业中得到广泛和深入的研究和应用。
在现有的虚拟现实设备的人机交互过程中,通常采用以下两种方式实现对虚拟现实设备的文字输入。一种是使用手柄、手势等方式进行文字输入,这种方式存在输入速度慢、用户输入体验较差等问题。另一种是人工将虚拟键盘和真实键盘进行标定,然后使用SLAM进行跟踪,采用这种方式时键盘每次移动均需要重新进行标定,操作不便,用户输入体验较差。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种键盘跟踪方法及跟踪系统。
根据本申请实施例的第一方面,本申请提供了一种键盘跟踪方法,其包括以下步骤:
获取包含键盘和用户手图像的图像序列;
利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜;
采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿;
采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿;
获取键盘的型号信息,对所获取型号的键盘的3d位姿和手的掩模进行渲染,完成对键盘的跟踪。
上述键盘跟踪方法中,所述利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜的具体过程为:
获取训练数据,训练数据包括在键盘的3d模型上均匀标注的2d点以及在图像中标注的键盘的掩模和手的掩模;
利用训练数据训练深度学习模型;
利用训练完成的深度学习模型对输入的包含键盘和用户手图像的图像序列进行训练,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。
进一步地,所述采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿的具体过程为:
将键盘的2d关键点作为目标,使用3d估计位姿作为状态量,使用梯度下降或高斯 法进行优化,其中,3d估计位姿包括旋转向量
Figure 849489DEST_PATH_IMAGE001
和偏移向量
Figure 505729DEST_PATH_IMAGE002
目标函数为:
Figure 22161DEST_PATH_IMAGE003
式中,
Figure 66341DEST_PATH_IMAGE004
表示将3d坐标投影为2d坐标;
Figure 792857DEST_PATH_IMAGE005
表示将旋转向量
Figure 377422DEST_PATH_IMAGE006
和偏移向量
Figure 889306DEST_PATH_IMAGE007
转换为 旋转矩阵;
Figure 901124DEST_PATH_IMAGE008
表示键盘的3d模型上点的坐标向量,其为三维向量;
Figure 927986DEST_PATH_IMAGE009
表示深度学习子模 块输出的键盘的2d关键点的坐标向量,其为二维向量;
当目标函数的值最小时得到的旋转向量
Figure 440876DEST_PATH_IMAGE010
和偏移向量
Figure 931900DEST_PATH_IMAGE011
即为需要求的键盘的3d 估计位姿。
进一步地,所述采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿的具体过程为:
似然函数为:
Figure 989986DEST_PATH_IMAGE012
式中,p表示位姿为
Figure 566461DEST_PATH_IMAGE013
时键盘的3d模型边缘对应的3d点投影到2d平面后与深度 学习子模块输出的键盘的掩模边缘重合的概率;P表示多个相机下边缘重合的联合概率,D 表示所有相机对应的2d点;
Figure 696091DEST_PATH_IMAGE014
分别表示当前位姿下对应的相机有多少个点被看到要做 优化,
Figure 900676DEST_PATH_IMAGE015
表示第0,1,…,N个相机的第ij,…,k个2d点;
使用梯度下降或高斯法似然函数进行优化,当似然函数的值最大时得到的旋转向 量
Figure 785456DEST_PATH_IMAGE016
和偏移向量
Figure 459014DEST_PATH_IMAGE017
即为需要求的键盘的3d优化位姿。
进一步地,所述对所获取型号的键盘的3d位姿和手的掩模进行渲染的具体过程为:
利用预设的深度关系和观察视角对键盘的3d优化位姿和手的掩模进行渲染,得到渲染后的图像。
进一步地,上述键盘跟踪方法中还包括以下步骤:获取用户通过键盘输入的字符并进行处理,将处理后的字符渲染在虚拟现实设备中,使用户通过实体键盘输入的字符与对键盘的3d优化位姿和手的掩模渲染后得到的图像同步显示在虚拟现实设备中。
根据本申请实施例的第二方面,本申请还提供了一种键盘跟踪系统,其包括摄像机、键盘和计算单元;所述摄像机和键盘均与所述计算单元连接;所述摄像机用于采集包含键盘图像的图像序列,所述键盘作为跟踪对象被跟踪;所述计算单元用于对图像序列进行计算和处理,以实现对键盘的跟踪,进而将键盘模型显示在虚拟现实设备中。
上述键盘跟踪系统中,所述计算单元包括跟踪模块和渲染模块;
所述跟踪模块获取图像序列和键盘的型号信息,所述跟踪模块用于对图像序列中的键盘和手进行定位和跟踪,以获取键盘的3d位姿和手的掩模;所述跟踪模块将键盘的型号信息、键盘的3d位姿和手的掩模传输至所述渲染模块,所述渲染模块用于对所接收型号的键盘的3d位姿和手的掩模进行渲染,得到渲染后的图像。
上述键盘跟踪系统中,所述键盘还用于接收用户的输入,所述计算单元还包括输入模块33,所述键盘与输入模块33连接,所述输入模块33用于对用户通过所述键盘输入的字符进行处理,处理后的字符用于渲染在虚拟显示设备中的显示屏上或者存储字符的控件中。
进一步地,所述跟踪模块包括深度学习子模块、基于特征的优化算法子模块和基于掩模的优化算法子模块;
所述深度学习子模块采用训练完成的训练模型对输入的图像进行训练,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜;
所述基于特征点的优化算法子模块根据键盘的2d关键点的坐标得到键盘的3d估计位姿;
基于掩模的优化算法子模块对键盘的3d估计位姿和由深度学习子模块得到的键盘的掩膜进行处理,得到键盘的3d优化位姿。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的键盘跟踪方法通过对输入的图像序列中的键盘进行定位和跟踪,进而获取键盘的实时3d位姿,基于键盘的实时3d位姿可以将键盘的3d模型渲染在虚拟现实设备中的显示屏上,使得用户能够很自然的使用键盘进行输入,从而提高用户体验。
另外,本申请提供的键盘跟踪方法和跟踪系统具备跟踪广泛的品牌和型号的键盘位姿的能力,对摄像机成像质量要求低,对光照和噪声等比较鲁棒,且手的遮挡影响很小,能够极大地提升用户在VR场景下使用键盘的舒适度。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种键盘跟踪方法的流程图。
图2为本申请具体实施方式提供的一种键盘跟踪方法中在键盘的3d模型上均匀标注的2d点的示意图。
图3为本申请具体实施方式提供的一种键盘跟踪方法中键盘和手的掩模示意图。
图4为本申请具体实施方式提供的一种键盘跟踪方法的渲染结果示意图。
图5为本申请具体实施方式提供的一种键盘跟踪系统的结构框图。
图6为本申请具体实施方式提供的一种键盘跟踪系统中深度学习模型的结构框图。
附图标记说明:
1、摄像机;2、键盘;
3、计算单元;31、跟踪模块;32、渲染模块;33、输入模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请实施例提供的键盘跟踪方法包括以下步骤:
S1、获取包含键盘和用户手图像的图像序列。
S2、利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。
S3、采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿。
S4、采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿。
S5、获取键盘的型号信息,对所获取型号的键盘的3d位姿和手的掩模进行渲染,完成对键盘的跟踪,进而可以将渲染后的键盘和手显示在虚拟现实设备中。
上述步骤S1中,包含键盘和用户手图像的图像序列可以通过摄像机采集得到。
上述步骤S2中,利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜的具体过程为:
获取训练数据,训练数据包括如图2所示的在键盘的3d模型上均匀标注的2d点以及如图3所示的在图像中标注的键盘的掩模和手的掩模。
利用训练数据训练深度学习模型。
利用训练完成的深度学习模型对输入的包含键盘和用户手图像的图像序列进行训练,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。
上述步骤S3中,采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿的具体过程为:
由于在键盘的3d模型上均匀标注的2d点和键盘的3d模型都是对应的,因此可以使用solve-pnp算法算出当前键盘的3d估计位姿。
可选的,也可以将键盘的2d关键点作为目标,使用3d估计位姿作为状态量,使用梯 度下降、高斯法等进行优化,其中,3d估计位姿包括旋转向量
Figure 189072DEST_PATH_IMAGE018
和偏移向量
Figure 326792DEST_PATH_IMAGE019
目标函数为:
Figure 241528DEST_PATH_IMAGE020
(1)
式(1)中,
Figure 792595DEST_PATH_IMAGE021
表示将3d坐标投影为2d坐标;
Figure 936131DEST_PATH_IMAGE022
表示将旋转向量
Figure 193937DEST_PATH_IMAGE023
和偏移向量
Figure 154940DEST_PATH_IMAGE024
转换 为旋转矩阵;
Figure 786779DEST_PATH_IMAGE025
表示键盘的3d模型上点的坐标向量,其为三维向量;
Figure 858640DEST_PATH_IMAGE026
表示深度学习子 模块输出的键盘的2d关键点的坐标向量,其为二维向量。
当目标函数的值最小时得到的旋转向量
Figure 174215DEST_PATH_IMAGE027
和偏移向量
Figure 40539DEST_PATH_IMAGE028
即为需要求的键盘的3d 估计位姿。
上述步骤S4中,采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿的具体过程为:
由于深度学习子模块得到的键盘的2d关键点的坐标的精度有限,因此基于特征点的优化算法单元得到的键盘的3d估计位姿不能满足预设的精度要求,需要利用基于掩模的优化算法子模块对键盘的3d估计位姿进行进一步地的细化。
基于掩模的优化算法子模块的输入是由基于特征点的优化算法单元得到的键盘的3d估计位姿和由深度学习子模块得到的键盘的掩膜,输出的是键盘的3d优化位姿。
基于掩模的优化算法子模块的优化目标为:
键盘的3d模型在某个键盘的3d估计位姿下的投影的掩模与深度学习子模块输出的键盘的掩膜相差最小时,得到的位姿即为键盘的3d优化位姿。
由于每次计算键盘的3d模型的掩模都很耗时,因此进行以下简化:
令深度学习子模块输出的键盘的掩模边缘上若干点的分布与键盘的3d模型投影掩模边缘上若干点的分布最相似。这样,就可以事先对所有3d模型在各个键盘的3d估计位姿下投影掩模边缘的点进行保存,得到点的集合。优化时,在这个点的集合中找到与深度学习子模块输出的键盘的掩模边缘点最接近的一组对应的位姿,这组位姿即为需要求的键盘的3d优化位姿。
似然函数为:
Figure 503882DEST_PATH_IMAGE029
(2)
式(2)中,p表示位姿为
Figure 238488DEST_PATH_IMAGE030
时键盘的3d模型边缘对应的3d点投影到2d平面后与深 度学习子模块输出的键盘的掩模边缘重合的概率。P表示多个相机下边缘重合的联合概率,D表示所有相机对应的2d点。
式(2)可以对应1个或多个相机,当对应1个相机时,式(2)可以表示为
Figure 533204DEST_PATH_IMAGE031
Figure 445796DEST_PATH_IMAGE032
分别表示当前位姿下对应的相机有多少个点被看到要做优 化,
Figure 193172DEST_PATH_IMAGE033
表示第0,1,…,N个相机的第ij,…,k个2d点。
使用梯度下降或高斯法等对式(2)表示的似然函数进行优化,当似然函数的值最 大时得到的旋转向量
Figure 810098DEST_PATH_IMAGE034
和偏移向量
Figure 818374DEST_PATH_IMAGE035
即为需要求的键盘的3d优化位姿。
为了能够提升收敛速度和精度,可以使用旋转向量
Figure 557660DEST_PATH_IMAGE036
和偏移向量
Figure 402119DEST_PATH_IMAGE037
和作为键盘的 3d估计位姿优化时的初值。
上述步骤S5中,对所获取型号的键盘的3d优化位姿和手的掩膜进行渲染的具体过程为:
利用预设的深度关系和观察视角对键盘的3d优化位姿和手的掩模进行渲染。如图4所示,手应该渲染在键盘模型之上。
本申请实施例提供的键盘跟踪方法还包括以下步骤:
获取用户通过键盘输入的字符并进行处理,将处理后的字符渲染在虚拟现实设备中,使得用户通过实体键盘输入的字符可以与对键盘的3d优化位姿和手的掩模渲染后得到的图像同步显示在虚拟现实设备中。
通过本申请实施例提供的键盘跟踪方法,可以对输入的图像序列中的键盘进行定位和跟踪,进而获取键盘的实时3d位姿,基于键盘的实时3d位姿可以将键盘的3d模型渲染在虚拟现实设备中的显示屏上,这样用户就能够很自然的使用键盘进行输入了。
本申请通过深度学习算法和优化算法,使用一个或者多个摄像机,恢复出键盘的高精度位姿,本申请具备跟踪广泛的品牌和型号的键盘位姿的能力,对摄像机成像质量要求低,对光照和噪声等比较鲁棒,且手的遮挡影响很小,能够极大地提升用户在VR场景下使用键盘的舒适度。
现有相关的键盘跟踪方法对相机成像质量要求高,对光照和噪声等不鲁棒,且因为输入的时候总有手挡住键盘,所以只能在手移开的时候初始化,并且在有手的时候只能和SLAM绑定使用。与现有技术相比,本申请提供的键盘跟踪方法在手遮挡情形下依然可以独立运行,用户体验更好,可以拓展至不同品牌和类型的键盘。
基于本申请实施例提供的键盘跟踪方法,如图5所示,本申请实施例还提供了一种键盘跟踪系统,其包括摄像机1、键盘2和计算单元3。其中,摄像机1和键盘2均与计算单元3连接。
摄像机1用于采集包含键盘2图像的图像序列,键盘2作为跟踪对象被跟踪。计算单元3用于对图像序列进行计算和处理,以实现对键盘2的跟踪,进而将键盘2模型显示在虚拟现实设备中。
在一个具体的实施例中,摄像机1可以为彩色相机、深度相机、灰度相机和激光雷达中的一种或多种。
键盘2可以通过有线连接方式与计算单元3连接,也可以通过蓝牙、WIFI等无线连接方式与计算单元3连接。
在一个具体的实施例中,计算单元3包括跟踪模块31和渲染模块32。
摄像机1将采集的图像序列传输至跟踪模块31,跟踪模块31读取键盘2的型号信息。跟踪模块31用于对图像序列中的键盘2和手进行定位和跟踪,以获取键盘2的3d位姿和手的掩模。跟踪模块31将键盘2的型号信息、键盘2的3d位姿和手的掩模传输至渲染模块32。渲染模块32用于对所接收型号的键盘2的3d位姿和手的掩模进行渲染,得到渲染后的图像。
在其他实施例中,键盘2还用于接收用户的输入,计算单元3还包括输入模块33,键盘2与输入模块33连接,输入模块33用于对用户通过键盘2输入的字符进行处理,处理后的字符用于渲染在虚拟显示设备中的显示屏上或者存储字符的控件中。
在一个具体的实施例中,跟踪模块31包括深度学习子模块和基于特征的优化算法子模块。
其中,深度学习子模块包括训练部分和推断部分。训练部分由深度学习训练服务器完成。
训练数据包括在键盘2的3d模型上均匀标注的2d点以及在图像中标注的键盘2的掩模和手的掩模。训练模型采用深度学习模型,如图6所示,训练模型包括编码器、解码器、第一卷积模块和第二卷积模块。通过训练确定第一卷积模块的权重和第二卷积模块的权重。
摄像机1采集的图像输入训练模型,依次通过经过编码器、解码器和第一卷积模块的处理后得到键盘2的掩膜和手的掩膜。第一卷积模块输出的特征和键盘2的掩膜输入第二卷积模块后,得到键盘的2d关键点的坐标。
深度学习子模块采用训练完成的训练模型对输入的图像进行训练,得到键盘的2d关键点的坐标、键盘2的掩膜和手的掩膜。
本申请采用多任务结构,多个目标函数同时优化。在一个网络结构中,先进行手和键盘2的掩模的优化,然后将手和键盘2掩模的先验与解码器提取的特征集合,进行关键点回归的优化,用一个模型就可以求解出多个目标。这样不仅减少了模型数量,而且在不同任务之间的相辅相成作用下,提高了深度学习的效果。
基于特征点的优化算法子模块根据键盘的2d关键点的坐标得到键盘2的3d估计位姿,其处理过程与上述键盘跟踪方法中步骤S3的处理过程相同,在此不再赘述。
在另一个具体的实施例中,跟踪模块31还包括基于掩模的优化算法子模块。
由于深度学习子模块得到的键盘的2d关键点的坐标的精度有限,因此基于特征点的优化算法单元得到的键盘2的3d估计位姿不能满足预设的精度要求,需要利用基于掩模的优化算法子模块对键盘2的3d估计位姿进行进一步地的细化。
基于掩模的优化算法子模块的输入是由基于特征点的优化算法单元得到的键盘2的3d估计位姿和由深度学习子模块得到的键盘2的掩膜,输出的是键盘2的3d优化位姿。基于掩模的优化算法子模块的处理过程与上述键盘跟踪方法中步骤S4的处理过程相同,在此不再赘述。
在一个具体的实施例中,渲染模块32可以利用预设的深度关系和观察视角对键盘2的3d位姿和手的掩模进行渲染。如图6所示,手应该渲染在键盘2模型之上。
可选地,可以在计算单元3中设置手的姿态估计模块,以将用户手的模型渲染出来。
可选地,可以在计算单元3中设置SLAM模块 (Simultaneous Localization andMapping,同步定位与构图)。将键盘2的3d估计位姿作为键盘2的初始值,和SLAM模块中当前帧的位姿叠加在一起,低频调用SLAM模块中的位姿估计算法,只在键盘2被移动的时候更新位姿,其他时间的位姿由SLAM模块获得,可以大幅降低计算量。
通过本申请实施例提供的键盘跟踪系统,可以对输入的图像序列中的键盘2进行定位和跟踪,进而获取键盘2的实时3d位姿,基于键盘2的实时3d位姿可以将键盘2的3d模型渲染在虚拟现实设备中的显示屏上,这样用户就能够很自然的使用键盘2进行输入了。
另外,通过在计算单元3中设置输入模块33,键盘2与输入模块33连接,输入模块33能够对用户通过键盘2输入的字符进行处理,处理后的字符可以同步渲染在虚拟显示设备中的显示屏上或者存储字符的控件中,进一步增强用户体验。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (10)

1.一种键盘跟踪方法,其特征在于,包括以下步骤:
获取包含键盘和用户手图像的图像序列;
利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜;
采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿;
采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿;
获取键盘的型号信息,对所获取型号的键盘的3d位姿和手的掩模进行渲染,完成对键盘的跟踪。
2.根据权利要求1所述的键盘跟踪方法,其特征在于,所述利用深度学习算法对包含键盘图像的图像序列进行处理,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜的具体过程为:
获取训练数据,训练数据包括在键盘的3d模型上均匀标注的2d点以及在图像中标注的键盘的掩模和手的掩模;
利用训练数据训练深度学习模型;
利用训练完成的深度学习模型对输入的包含键盘和用户手图像的图像序列进行训练,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。
3.根据权利要求2所述的键盘跟踪方法,其特征在于,所述采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理,得到键盘的3d估计位姿的具体过程为:
将键盘的2d关键点作为目标,
使用3d估计位姿作为状态量,使用梯度下降或高斯法进行优化,其中,3d估计位姿包括 旋转向量
Figure 468884DEST_PATH_IMAGE001
和偏移向量
Figure 41816DEST_PATH_IMAGE002
目标函数为:
Figure 618291DEST_PATH_IMAGE003
式中,
Figure 420025DEST_PATH_IMAGE004
表示将3d坐标投影为2d坐标;
Figure 968818DEST_PATH_IMAGE005
表示将旋转向量
Figure 322439DEST_PATH_IMAGE006
和偏移向量
Figure 245265DEST_PATH_IMAGE007
转换为旋转矩 阵;
Figure 240902DEST_PATH_IMAGE008
表示键盘的3d模型上点的坐标向量,其为三维向量;
Figure 316306DEST_PATH_IMAGE009
表示深度学习子模块输出 的键盘的2d关键点的坐标向量,其为二维向量;
当目标函数的值最小时得到的旋转向量
Figure 44090DEST_PATH_IMAGE010
和偏移向量
Figure 329578DEST_PATH_IMAGE011
即为需要求的键盘的3d估计位 姿。
4.根据权利要求3所述的键盘跟踪方法,其特征在于,所述采用基于掩模的优化算法对键盘的3d估计位姿进行优化,得到键盘的3d优化位姿的具体过程为:
似然函数为:
Figure 987962DEST_PATH_IMAGE012
式中,p表示位姿为
Figure 42505DEST_PATH_IMAGE013
时键盘的3d模型边缘对应的3d点投影到2d平面后与深度学习 子模块输出的键盘的掩模边缘重合的概率;P表示多个相机下边缘重合的联合概率,D表示 所有相机对应的2d点;
Figure 878874DEST_PATH_IMAGE014
分别表示当前位姿下对应的相机有多少个点被看到要做优 化,
Figure 651658DEST_PATH_IMAGE015
表示第0,1,…,N个相机的第ij,…,k个2d点;
使用梯度下降或高斯法似然函数进行优化,当似然函数的值最大时得到的旋转向量
Figure 661202DEST_PATH_IMAGE016
和偏移向量
Figure 960466DEST_PATH_IMAGE017
即为需要求的键盘的3d优化位姿。
5.根据权利要求4所述的键盘跟踪方法,其特征在于,所述对所获取型号的键盘的3d位姿和手的掩模进行渲染的具体过程为:
利用预设的深度关系和观察视角对键盘的3d优化位姿和手的掩模进行渲染,得到渲染后的图像。
6.根据权利要求5所述的键盘跟踪方法,其特征在于,还包括以下步骤:获取用户通过键盘输入的字符并进行处理,将处理后的字符渲染在虚拟现实设备中,使用户通过实体键盘输入的字符与对键盘的3d优化位姿和手的掩模渲染后得到的图像同步显示在虚拟现实设备中。
7.一种键盘跟踪系统,其特征在于,包括摄像机、键盘和计算单元;所述摄像机和键盘均与所述计算单元连接;所述摄像机用于采集包含键盘图像的图像序列,所述键盘作为跟踪对象被跟踪;所述计算单元用于对图像序列进行计算和处理,以实现对键盘的跟踪,进而将键盘模型显示在虚拟现实设备中。
8.根据权利要求7所述的键盘跟踪系统,其特征在于,所述计算单元包括跟踪模块和渲染模块;
所述跟踪模块获取图像序列和键盘的型号信息,所述跟踪模块用于对图像序列中的键盘和手进行定位和跟踪,以获取键盘的3d位姿和手的掩模;所述跟踪模块将键盘的型号信息、键盘的3d位姿和手的掩模传输至所述渲染模块,所述渲染模块用于对所接收型号的键盘的3d位姿和手的掩模进行渲染,得到渲染后的图像。
9.根据权利要求7所述的键盘跟踪系统,其特征在于,所述键盘还用于接收用户的输入,所述计算单元还包括输入模块,所述键盘与输入模块连接,所述输入模块用于对用户通过所述键盘输入的字符进行处理,处理后的字符用于渲染在虚拟显示设备中的显示屏上或者存储字符的控件中。
10.根据权利要求8所述的键盘跟踪系统,其特征在于,所述跟踪模块包括深度学习子模块、基于特征的优化算法子模块和基于掩模的优化算法子模块;
所述深度学习子模块采用训练完成的训练模型对输入的图像进行训练,得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜;
所述基于特征点的优化算法子模块根据键盘的2d关键点的坐标得到键盘的3d估计位姿;
基于掩模的优化算法子模块对键盘的3d估计位姿和由深度学习子模块得到的键盘的掩膜进行处理,得到键盘的3d优化位姿。
CN202210447228.XA 2022-04-27 2022-04-27 键盘跟踪方法及跟踪系统 Expired - Fee Related CN114546125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447228.XA CN114546125B (zh) 2022-04-27 2022-04-27 键盘跟踪方法及跟踪系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447228.XA CN114546125B (zh) 2022-04-27 2022-04-27 键盘跟踪方法及跟踪系统

Publications (2)

Publication Number Publication Date
CN114546125A true CN114546125A (zh) 2022-05-27
CN114546125B CN114546125B (zh) 2022-08-09

Family

ID=81667651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447228.XA Expired - Fee Related CN114546125B (zh) 2022-04-27 2022-04-27 键盘跟踪方法及跟踪系统

Country Status (1)

Country Link
CN (1) CN114546125B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110187832A1 (en) * 2008-07-15 2011-08-04 Kenji Yoshida Naked eye three-dimensional video image display system, naked eye three-dimensional video image display device, amusement game machine and parallax barrier sheet
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20180165879A1 (en) * 2016-12-09 2018-06-14 Fyusion, Inc. Live augmented reality using tracking
CN108334203A (zh) * 2018-04-13 2018-07-27 北京理工大学 一种用于虚拟现实的虚实融合键盘系统
US20180284982A1 (en) * 2017-04-01 2018-10-04 Intel Corporation Keyboard for virtual reality
CN108717712A (zh) * 2018-05-29 2018-10-30 东北大学 一种基于地平面假设的视觉惯导slam方法
CN109493384A (zh) * 2018-09-20 2019-03-19 顺丰科技有限公司 相机位姿估计方法、系统、设备及存储介质
CN208888763U (zh) * 2018-04-13 2019-05-21 北京理工大学 一种用于虚拟现实的虚实融合键盘系统
CN109858333A (zh) * 2018-12-20 2019-06-07 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN109887003A (zh) * 2019-01-23 2019-06-14 亮风台(上海)信息科技有限公司 一种用于进行三维跟踪初始化的方法与设备
CN110335314A (zh) * 2019-06-24 2019-10-15 华中科技大学 基于目标物体的二维图像预测目标物体实时位姿的方法
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
US20200175702A1 (en) * 2018-12-03 2020-06-04 Canon Kabushiki Kaisha Image processing apparatus, three-dimensional shape data generation method, and non-transitory computer readable storage medium
CN111968235A (zh) * 2020-07-08 2020-11-20 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备
CN113192141A (zh) * 2020-12-10 2021-07-30 中国科学院深圳先进技术研究院 一种6d姿态估计方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110187832A1 (en) * 2008-07-15 2011-08-04 Kenji Yoshida Naked eye three-dimensional video image display system, naked eye three-dimensional video image display device, amusement game machine and parallax barrier sheet
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20180165879A1 (en) * 2016-12-09 2018-06-14 Fyusion, Inc. Live augmented reality using tracking
US20180284982A1 (en) * 2017-04-01 2018-10-04 Intel Corporation Keyboard for virtual reality
CN208888763U (zh) * 2018-04-13 2019-05-21 北京理工大学 一种用于虚拟现实的虚实融合键盘系统
CN108334203A (zh) * 2018-04-13 2018-07-27 北京理工大学 一种用于虚拟现实的虚实融合键盘系统
CN108717712A (zh) * 2018-05-29 2018-10-30 东北大学 一种基于地平面假设的视觉惯导slam方法
CN109493384A (zh) * 2018-09-20 2019-03-19 顺丰科技有限公司 相机位姿估计方法、系统、设备及存储介质
US20200175702A1 (en) * 2018-12-03 2020-06-04 Canon Kabushiki Kaisha Image processing apparatus, three-dimensional shape data generation method, and non-transitory computer readable storage medium
CN109858333A (zh) * 2018-12-20 2019-06-07 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读介质
CN109887003A (zh) * 2019-01-23 2019-06-14 亮风台(上海)信息科技有限公司 一种用于进行三维跟踪初始化的方法与设备
CN110335314A (zh) * 2019-06-24 2019-10-15 华中科技大学 基于目标物体的二维图像预测目标物体实时位姿的方法
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN111968235A (zh) * 2020-07-08 2020-11-20 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备
CN113192141A (zh) * 2020-12-10 2021-07-30 中国科学院深圳先进技术研究院 一种6d姿态估计方法

Also Published As

Publication number Publication date
CN114546125B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
US8374395B2 (en) Augmented reality method and devices using a real time automatic tracking of marker-free textured planar geometrical objects in a video stream
US9842405B2 (en) Visual target tracking
JP3244798B2 (ja) 動画像処理装置
US8577084B2 (en) Visual target tracking
US8565476B2 (en) Visual target tracking
US8577085B2 (en) Visual target tracking
US8565477B2 (en) Visual target tracking
CN112346572A (zh) 一种虚实融合实现方法、系统和电子设备
CN109144252B (zh) 对象确定方法、装置、设备和存储介质
WO2011071696A2 (en) Visual target tracking
JP7164045B2 (ja) 骨格認識方法、骨格認識プログラムおよび骨格認識システム
CN112348942B (zh) 一种健身交互方法和系统
CN111640145A (zh) 图像配准方法及其相关的模型训练方法、设备、装置
CN113289327A (zh) 移动终端的显示控制方法及装置、存储介质及电子设备
CN112766027A (zh) 图像处理方法、装置、设备及存储介质
CN114022645A (zh) 虚拟教师系统的动作驱动方法、装置、设备及存储介质
US20230162458A1 (en) Information processing apparatus, information processing method, and program
CN112732075B (zh) 一种面向教学实验的虚实融合机器教师教学方法及系统
CN108027647B (zh) 用于与虚拟对象交互的方法和设备
CN114546125B (zh) 键盘跟踪方法及跟踪系统
JP3668168B2 (ja) 動画像処理装置
EP4303824A1 (en) System and method for monitoring a body pose of a user
JP3790253B2 (ja) 動画像処理装置
JP2005063463A (ja) 動画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220809