CN114546125A

CN114546125A - 键盘跟踪方法及跟踪系统

Info

Publication number: CN114546125A
Application number: CN202210447228.XA
Authority: CN
Inventors: 张旭; 于天慧; 邓伯胜; 毛文涛; 蔡宝军
Original assignee: Beijing Yingchuang Information Technology Co ltd
Current assignee: Beijing Yingchuang Information Technology Co ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-05-27
Anticipated expiration: 2042-04-27
Also published as: CN114546125B

Abstract

本申请提供了一种键盘跟踪方法及跟踪系统，键盘跟踪方法包括以下步骤：获取包含键盘和用户手图像的图像序列；利用深度学习算法对包含键盘图像的图像序列进行处理，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜；采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理，得到键盘的3d估计位姿；采用基于掩模的优化算法对键盘的3d估计位姿进行优化，得到键盘的3d优化位姿；获取键盘的型号信息，对所获取型号的键盘的3d位姿和手的掩模进行渲染，完成对键盘的跟踪。本申请使用户能够很自然的使用键盘进行输入，操作方便，提高用户体验。

Description

键盘跟踪方法及跟踪系统

技术领域

本申请属于图像处理技术领域，具体涉及一种键盘跟踪方法及跟踪系统。

背景技术

虚拟现实技术是仿真技术的一个重要分支方向，其利用计算机技术和各种软、硬件工具生成实时动态的、三维立体而且纹理逼真的图像和场景，并能够模仿人类的各种感知，与用户进行交互。从1963年虚拟现实技术萌芽至今，虚拟现实技术的理论已经比较完善，而且近年来，虚拟现实技术在军事仿真、娱乐游戏、医疗、建筑等多个行业中得到广泛和深入的研究和应用。

在现有的虚拟现实设备的人机交互过程中，通常采用以下两种方式实现对虚拟现实设备的文字输入。一种是使用手柄、手势等方式进行文字输入，这种方式存在输入速度慢、用户输入体验较差等问题。另一种是人工将虚拟键盘和真实键盘进行标定，然后使用SLAM进行跟踪，采用这种方式时键盘每次移动均需要重新进行标定，操作不便，用户输入体验较差。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种键盘跟踪方法及跟踪系统。

根据本申请实施例的第一方面，本申请提供了一种键盘跟踪方法，其包括以下步骤：

获取包含键盘和用户手图像的图像序列；

利用深度学习算法对包含键盘图像的图像序列进行处理，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜；

采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理，得到键盘的3d估计位姿；

采用基于掩模的优化算法对键盘的3d估计位姿进行优化，得到键盘的3d优化位姿；

获取键盘的型号信息，对所获取型号的键盘的3d位姿和手的掩模进行渲染，完成对键盘的跟踪。

上述键盘跟踪方法中，所述利用深度学习算法对包含键盘图像的图像序列进行处理，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜的具体过程为：

获取训练数据，训练数据包括在键盘的3d模型上均匀标注的2d点以及在图像中标注的键盘的掩模和手的掩模；

利用训练数据训练深度学习模型；

利用训练完成的深度学习模型对输入的包含键盘和用户手图像的图像序列进行训练，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。

进一步地，所述采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理，得到键盘的3d估计位姿的具体过程为：

将键盘的2d关键点作为目标，使用3d估计位姿作为状态量，使用梯度下降或高斯法进行优化，其中，3d估计位姿包括旋转向量

和偏移向量

；

目标函数为：

，

式中，

表示将3d坐标投影为2d坐标；

表示将旋转向量

和偏移向量

转换为旋转矩阵；

表示键盘的3d模型上点的坐标向量，其为三维向量；

表示深度学习子模块输出的键盘的2d关键点的坐标向量，其为二维向量；

当目标函数的值最小时得到的旋转向量

和偏移向量

即为需要求的键盘的3d 估计位姿。

进一步地，所述采用基于掩模的优化算法对键盘的3d估计位姿进行优化，得到键盘的3d优化位姿的具体过程为：

似然函数为：

，

式中，p表示位姿为

时键盘的3d模型边缘对应的3d点投影到2d平面后与深度学习子模块输出的键盘的掩模边缘重合的概率；P表示多个相机下边缘重合的联合概率，D 表示所有相机对应的2d点；

分别表示当前位姿下对应的相机有多少个点被看到要做优化，

表示第0,1,…,N个相机的第i，j，…，k个2d点；

使用梯度下降或高斯法似然函数进行优化，当似然函数的值最大时得到的旋转向量

和偏移向量

即为需要求的键盘的3d优化位姿。

进一步地，所述对所获取型号的键盘的3d位姿和手的掩模进行渲染的具体过程为：

利用预设的深度关系和观察视角对键盘的3d优化位姿和手的掩模进行渲染，得到渲染后的图像。

进一步地，上述键盘跟踪方法中还包括以下步骤：获取用户通过键盘输入的字符并进行处理，将处理后的字符渲染在虚拟现实设备中，使用户通过实体键盘输入的字符与对键盘的3d优化位姿和手的掩模渲染后得到的图像同步显示在虚拟现实设备中。

根据本申请实施例的第二方面，本申请还提供了一种键盘跟踪系统，其包括摄像机、键盘和计算单元；所述摄像机和键盘均与所述计算单元连接；所述摄像机用于采集包含键盘图像的图像序列，所述键盘作为跟踪对象被跟踪；所述计算单元用于对图像序列进行计算和处理，以实现对键盘的跟踪，进而将键盘模型显示在虚拟现实设备中。

上述键盘跟踪系统中，所述计算单元包括跟踪模块和渲染模块；

所述跟踪模块获取图像序列和键盘的型号信息，所述跟踪模块用于对图像序列中的键盘和手进行定位和跟踪，以获取键盘的3d位姿和手的掩模；所述跟踪模块将键盘的型号信息、键盘的3d位姿和手的掩模传输至所述渲染模块，所述渲染模块用于对所接收型号的键盘的3d位姿和手的掩模进行渲染，得到渲染后的图像。

上述键盘跟踪系统中，所述键盘还用于接收用户的输入，所述计算单元还包括输入模块33，所述键盘与输入模块33连接，所述输入模块33用于对用户通过所述键盘输入的字符进行处理，处理后的字符用于渲染在虚拟显示设备中的显示屏上或者存储字符的控件中。

进一步地，所述跟踪模块包括深度学习子模块、基于特征的优化算法子模块和基于掩模的优化算法子模块；

所述深度学习子模块采用训练完成的训练模型对输入的图像进行训练，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜；

所述基于特征点的优化算法子模块根据键盘的2d关键点的坐标得到键盘的3d估计位姿；

基于掩模的优化算法子模块对键盘的3d估计位姿和由深度学习子模块得到的键盘的掩膜进行处理，得到键盘的3d优化位姿。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请提供的键盘跟踪方法通过对输入的图像序列中的键盘进行定位和跟踪，进而获取键盘的实时3d位姿，基于键盘的实时3d位姿可以将键盘的3d模型渲染在虚拟现实设备中的显示屏上，使得用户能够很自然的使用键盘进行输入，从而提高用户体验。

另外，本申请提供的键盘跟踪方法和跟踪系统具备跟踪广泛的品牌和型号的键盘位姿的能力，对摄像机成像质量要求低，对光照和噪声等比较鲁棒，且手的遮挡影响很小，能够极大地提升用户在VR场景下使用键盘的舒适度。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种键盘跟踪方法的流程图。

图2为本申请具体实施方式提供的一种键盘跟踪方法中在键盘的3d模型上均匀标注的2d点的示意图。

图3为本申请具体实施方式提供的一种键盘跟踪方法中键盘和手的掩模示意图。

图4为本申请具体实施方式提供的一种键盘跟踪方法的渲染结果示意图。

图5为本申请具体实施方式提供的一种键盘跟踪系统的结构框图。

图6为本申请具体实施方式提供的一种键盘跟踪系统中深度学习模型的结构框图。

附图标记说明：

1、摄像机；2、键盘；

3、计算单元；31、跟踪模块；32、渲染模块；33、输入模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请实施例提供的键盘跟踪方法包括以下步骤：

S1、获取包含键盘和用户手图像的图像序列。

S2、利用深度学习算法对包含键盘图像的图像序列进行处理，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜。

S3、采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理，得到键盘的3d估计位姿。

S4、采用基于掩模的优化算法对键盘的3d估计位姿进行优化，得到键盘的3d优化位姿。

S5、获取键盘的型号信息，对所获取型号的键盘的3d位姿和手的掩模进行渲染，完成对键盘的跟踪，进而可以将渲染后的键盘和手显示在虚拟现实设备中。

上述步骤S1中，包含键盘和用户手图像的图像序列可以通过摄像机采集得到。

上述步骤S2中，利用深度学习算法对包含键盘图像的图像序列进行处理，得到键盘的2d关键点的坐标、键盘的掩膜和手的掩膜的具体过程为：

获取训练数据，训练数据包括如图2所示的在键盘的3d模型上均匀标注的2d点以及如图3所示的在图像中标注的键盘的掩模和手的掩模。

利用训练数据训练深度学习模型。

上述步骤S3中，采用基于特征点的优化算法对键盘的2d关键点的坐标和键盘的掩膜进行处理，得到键盘的3d估计位姿的具体过程为：

由于在键盘的3d模型上均匀标注的2d点和键盘的3d模型都是对应的，因此可以使用solve-pnp算法算出当前键盘的3d估计位姿。

可选的，也可以将键盘的2d关键点作为目标，使用3d估计位姿作为状态量，使用梯度下降、高斯法等进行优化，其中，3d估计位姿包括旋转向量

和偏移向量

。

目标函数为：

（1）

式（1）中，

表示将3d坐标投影为2d坐标；

表示将旋转向量

和偏移向量

转换为旋转矩阵；

表示键盘的3d模型上点的坐标向量，其为三维向量；

表示深度学习子模块输出的键盘的2d关键点的坐标向量，其为二维向量。

当目标函数的值最小时得到的旋转向量

和偏移向量

即为需要求的键盘的3d 估计位姿。

上述步骤S4中，采用基于掩模的优化算法对键盘的3d估计位姿进行优化，得到键盘的3d优化位姿的具体过程为：

由于深度学习子模块得到的键盘的2d关键点的坐标的精度有限，因此基于特征点的优化算法单元得到的键盘的3d估计位姿不能满足预设的精度要求，需要利用基于掩模的优化算法子模块对键盘的3d估计位姿进行进一步地的细化。

基于掩模的优化算法子模块的输入是由基于特征点的优化算法单元得到的键盘的3d估计位姿和由深度学习子模块得到的键盘的掩膜，输出的是键盘的3d优化位姿。

基于掩模的优化算法子模块的优化目标为：

键盘的3d模型在某个键盘的3d估计位姿下的投影的掩模与深度学习子模块输出的键盘的掩膜相差最小时，得到的位姿即为键盘的3d优化位姿。

由于每次计算键盘的3d模型的掩模都很耗时，因此进行以下简化：

令深度学习子模块输出的键盘的掩模边缘上若干点的分布与键盘的3d模型投影掩模边缘上若干点的分布最相似。这样，就可以事先对所有3d模型在各个键盘的3d估计位姿下投影掩模边缘的点进行保存，得到点的集合。优化时，在这个点的集合中找到与深度学习子模块输出的键盘的掩模边缘点最接近的一组对应的位姿，这组位姿即为需要求的键盘的3d优化位姿。

似然函数为：

（2）

式（2）中，p表示位姿为

时键盘的3d模型边缘对应的3d点投影到2d平面后与深度学习子模块输出的键盘的掩模边缘重合的概率。P表示多个相机下边缘重合的联合概率，D表示所有相机对应的2d点。

式（2）可以对应1个或多个相机，当对应1个相机时，式（2）可以表示为

；

表示第0,1,…,N个相机的第i，j，…，k个2d点。

使用梯度下降或高斯法等对式（2）表示的似然函数进行优化，当似然函数的值最大时得到的旋转向量

和偏移向量

即为需要求的键盘的3d优化位姿。

为了能够提升收敛速度和精度，可以使用旋转向量

和偏移向量

和作为键盘的 3d估计位姿优化时的初值。

上述步骤S5中，对所获取型号的键盘的3d优化位姿和手的掩膜进行渲染的具体过程为：

利用预设的深度关系和观察视角对键盘的3d优化位姿和手的掩模进行渲染。如图4所示，手应该渲染在键盘模型之上。

本申请实施例提供的键盘跟踪方法还包括以下步骤：

获取用户通过键盘输入的字符并进行处理，将处理后的字符渲染在虚拟现实设备中，使得用户通过实体键盘输入的字符可以与对键盘的3d优化位姿和手的掩模渲染后得到的图像同步显示在虚拟现实设备中。

通过本申请实施例提供的键盘跟踪方法，可以对输入的图像序列中的键盘进行定位和跟踪，进而获取键盘的实时3d位姿，基于键盘的实时3d位姿可以将键盘的3d模型渲染在虚拟现实设备中的显示屏上，这样用户就能够很自然的使用键盘进行输入了。

本申请通过深度学习算法和优化算法，使用一个或者多个摄像机，恢复出键盘的高精度位姿，本申请具备跟踪广泛的品牌和型号的键盘位姿的能力，对摄像机成像质量要求低，对光照和噪声等比较鲁棒，且手的遮挡影响很小，能够极大地提升用户在VR场景下使用键盘的舒适度。

现有相关的键盘跟踪方法对相机成像质量要求高，对光照和噪声等不鲁棒，且因为输入的时候总有手挡住键盘，所以只能在手移开的时候初始化，并且在有手的时候只能和SLAM绑定使用。与现有技术相比，本申请提供的键盘跟踪方法在手遮挡情形下依然可以独立运行，用户体验更好，可以拓展至不同品牌和类型的键盘。

基于本申请实施例提供的键盘跟踪方法，如图5所示，本申请实施例还提供了一种键盘跟踪系统，其包括摄像机1、键盘2和计算单元3。其中，摄像机1和键盘2均与计算单元3连接。

摄像机1用于采集包含键盘2图像的图像序列，键盘2作为跟踪对象被跟踪。计算单元3用于对图像序列进行计算和处理，以实现对键盘2的跟踪，进而将键盘2模型显示在虚拟现实设备中。

在一个具体的实施例中，摄像机1可以为彩色相机、深度相机、灰度相机和激光雷达中的一种或多种。

键盘2可以通过有线连接方式与计算单元3连接，也可以通过蓝牙、WIFI等无线连接方式与计算单元3连接。

在一个具体的实施例中，计算单元3包括跟踪模块31和渲染模块32。

摄像机1将采集的图像序列传输至跟踪模块31，跟踪模块31读取键盘2的型号信息。跟踪模块31用于对图像序列中的键盘2和手进行定位和跟踪，以获取键盘2的3d位姿和手的掩模。跟踪模块31将键盘2的型号信息、键盘2的3d位姿和手的掩模传输至渲染模块32。渲染模块32用于对所接收型号的键盘2的3d位姿和手的掩模进行渲染，得到渲染后的图像。

在其他实施例中，键盘2还用于接收用户的输入，计算单元3还包括输入模块33，键盘2与输入模块33连接，输入模块33用于对用户通过键盘2输入的字符进行处理，处理后的字符用于渲染在虚拟显示设备中的显示屏上或者存储字符的控件中。

在一个具体的实施例中，跟踪模块31包括深度学习子模块和基于特征的优化算法子模块。

其中，深度学习子模块包括训练部分和推断部分。训练部分由深度学习训练服务器完成。

训练数据包括在键盘2的3d模型上均匀标注的2d点以及在图像中标注的键盘2的掩模和手的掩模。训练模型采用深度学习模型，如图6所示，训练模型包括编码器、解码器、第一卷积模块和第二卷积模块。通过训练确定第一卷积模块的权重和第二卷积模块的权重。

摄像机1采集的图像输入训练模型，依次通过经过编码器、解码器和第一卷积模块的处理后得到键盘2的掩膜和手的掩膜。第一卷积模块输出的特征和键盘2的掩膜输入第二卷积模块后，得到键盘的2d关键点的坐标。

深度学习子模块采用训练完成的训练模型对输入的图像进行训练，得到键盘的2d关键点的坐标、键盘2的掩膜和手的掩膜。

本申请采用多任务结构，多个目标函数同时优化。在一个网络结构中，先进行手和键盘2的掩模的优化，然后将手和键盘2掩模的先验与解码器提取的特征集合，进行关键点回归的优化，用一个模型就可以求解出多个目标。这样不仅减少了模型数量，而且在不同任务之间的相辅相成作用下，提高了深度学习的效果。

基于特征点的优化算法子模块根据键盘的2d关键点的坐标得到键盘2的3d估计位姿，其处理过程与上述键盘跟踪方法中步骤S3的处理过程相同，在此不再赘述。

在另一个具体的实施例中，跟踪模块31还包括基于掩模的优化算法子模块。

由于深度学习子模块得到的键盘的2d关键点的坐标的精度有限，因此基于特征点的优化算法单元得到的键盘2的3d估计位姿不能满足预设的精度要求，需要利用基于掩模的优化算法子模块对键盘2的3d估计位姿进行进一步地的细化。

基于掩模的优化算法子模块的输入是由基于特征点的优化算法单元得到的键盘2的3d估计位姿和由深度学习子模块得到的键盘2的掩膜，输出的是键盘2的3d优化位姿。基于掩模的优化算法子模块的处理过程与上述键盘跟踪方法中步骤S4的处理过程相同，在此不再赘述。

在一个具体的实施例中，渲染模块32可以利用预设的深度关系和观察视角对键盘2的3d位姿和手的掩模进行渲染。如图6所示，手应该渲染在键盘2模型之上。

可选地，可以在计算单元3中设置手的姿态估计模块，以将用户手的模型渲染出来。

可选地，可以在计算单元3中设置SLAM模块 (Simultaneous Localization andMapping，同步定位与构图)。将键盘2的3d估计位姿作为键盘2的初始值，和SLAM模块中当前帧的位姿叠加在一起，低频调用SLAM模块中的位姿估计算法，只在键盘2被移动的时候更新位姿，其他时间的位姿由SLAM模块获得，可以大幅降低计算量。

通过本申请实施例提供的键盘跟踪系统，可以对输入的图像序列中的键盘2进行定位和跟踪，进而获取键盘2的实时3d位姿，基于键盘2的实时3d位姿可以将键盘2的3d模型渲染在虚拟现实设备中的显示屏上，这样用户就能够很自然的使用键盘2进行输入了。

另外，通过在计算单元3中设置输入模块33，键盘2与输入模块33连接，输入模块33能够对用户通过键盘2输入的字符进行处理，处理后的字符可以同步渲染在虚拟显示设备中的显示屏上或者存储字符的控件中，进一步增强用户体验。

上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务，其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。