CN111782041A

CN111782041A - 打字方法及装置、设备、存储介质

Info

Publication number: CN111782041A
Application number: CN202010591802.XA
Authority: CN
Inventors: 张学勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-16
Also published as: WO2021258862A1

Abstract

本申请公开了打字方法及装置、设备、存储介质，其中，所述方法包括：获取用户姿态的二维图像和深度图像；根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

Description

打字方法及装置、设备、存储介质

技术领域

本申请涉及人机交互技术，涉及但不限于打字方法及装置、设备、存储介质。

背景技术

随着增强现实(Augmented Reality，AR)技术的应用和普及，以AR眼镜为代表的产品也在逐渐改变人机交互方式，例如打字。传统的打字系统一般受到硬件物理设备的限制，比如键盘、鼠标、触摸屏等，这些物理硬件设备一直制约着打字的舒适性和应用场合的自由度。

AR技术的发展，使得无键盘打字成为可能，用户可以在佩戴的AR眼镜的前方手写字符，AR眼镜基于采集的指尖特征点的轨迹实现手写字符的识别。然而，这种方式存在识别准确率低的缺陷，使得无键盘打字的人机交互体验并不友好。

发明内容

有鉴于此，本申请实施例提供的打字方法及装置、设备、存储介质，能够提高无键盘打字的效率；其中，本申请实施例提供的打字方法及装置、设备、存储介质是这样实现的：

本申请实施例提供的打字方法，包括：获取用户姿态的二维图像和深度图像；根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

本申请实施例提供的打字装置，包括：图像获取模块，用于获取用户姿态的二维图像和深度图像；模型构建模块，用于根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；字符输出模块，用于对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

本申请实施例提供的电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例任一所述打字方法中的步骤。

本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例任一打字方法中的步骤。

本申请实施例中，提供一种打字方法，在该方法中，电子设备获取用户姿态的二维图像和深度图像；根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；对所述三维姿态模型进行分析，输出分析得到的目标字符；相比于仅基于二维图像确定用户姿态，从而实现无键盘打字功能，本申请实施例基于二维图像和深度图像确定的用户姿态更加准确，进而能够提高无键盘打字的效率。

附图说明

图1为本申请实施例打字方法的应用场景示意图；

图2为本申请实施例打字方法的实现流程示意图；

图3为用户在不同平面伸出的手势示意图；

图4为本申请实施例打字方法的另一实现流程示意图；

图5A为本申请实施例打字方法的再一实现流程示意图；

图5B为本申请实施例获得目标姿态模型的方法示意图；

图6为本申请实施例预定义的字符姿态模型与字母的对应关系示意图；

图7为AR眼镜手势识别硬件系统示意图；

图8为飞行时间(Time of Flight，TOF)深度相机模组深度成像原理示意图；

图9为AR眼镜另一手势识别硬件系统示意图；

图10为结构光模组深度成像原理示意图；

图11A为本申请实施例打字装置的结构示意图；

图11B为本申请实施例打字装置的另一结构示意图；

图12为本申请实施例电子设备的一种硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例在以下所描述的打字方法的应用场景，是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知，随着新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以用户通过AR眼镜与好友聊天为例，如图1所示，用户10在启动AR眼镜11的手势输入法之后，在AR眼镜11的前端进行手势操作。例如，伸出拳头，AR眼镜11将该拳头识别为对应的字母A，并将该字母输出显示在AR聊天界面13上。

当然，对于无键盘打字的应用场景并不限定为上述聊天的应用场景。无键盘打字的适用场景可以是多种多样的，例如，还可以是文档编辑等办公场景、通过搜索引擎输入查找关键词等等任何需要输入文字的应用场景。

另外，在本申请实施例中，实现打字方法的电子设备可以是多种多样的，不限定是AR眼镜等头戴设备。比如，该电子设备还可以是笔记本电脑、台式计算机、服务器或电视机等具备信息处理能力或者具备图像采集能力和信息处理能力的设备。所述打字方法所实现的功能可以通过该电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

图2为本申请实施例打字方法的实现流程示意图，如图2所示，所述方法至少可以包括以下步骤201至步骤203：

步骤201，获取用户姿态的二维图像和深度图像。

用户姿态可以是体态，也可以是手部姿态(即手势)，对此不做限定。二维图像的类型可以是多种多样的，例如，二维图像为红外灰度图像、散斑图或者RGB图像等。电子设备可以是具备图像采集能力的设备，例如该设备为AR眼镜。在一些实施例中，该设备可以通过自身的TOF相机采集该用户姿态的二维图像和深度图像。在另一些实施例中，该设备还可以通过自身的结构光模组采集该用户姿态的散斑图，然后基于该散斑图计算该用户姿态的深度图像。

步骤202，根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型。

在实现时，电子设备可以基于该二维图像进行关键特征点提取，例如识别用户的关节点，将这些关节点作为关键特征点。以用户姿态为手势为例，可以将手部的关节点和掌心作为关键特征点；然后，将这些特征点的像素坐标转换为特定坐标系(例如笛卡尔坐标系)中的x坐标和y坐标，将这些特征点在深度图像中对应的点的深度信息转换为特定坐标系中的z坐标，这样就得到了这些特征点在该特定坐标系下的三维坐标；最后，基于这些特征点的三维坐标，即可构建出该用户姿态的三维姿态模型。构建三维模型的方法可以是多种多样的。例如，根据这些特征点的位置关系，将这些特征点连接起来，从而得到该用户姿态的三维姿态模型。

可以理解地，相比于仅基于二维图像来实现手势识别，结合深度图像实现手势识别的方法，其识别准确度更高，这样能够减少输出错误字符的概率，进而能够提高用户无键盘打字的效率。举例来说，如图3所示，如果用户在与镜头平行的平面伸出手势301，无论是仅基于二维图像还是结合深度图像，均能够识别出该手势是伸出了中指和食指；但是，如果用户在与镜头垂直的平面伸出该手势(如图片302所示)，则仅基于二维图像得到的识别结果可能为用户仅伸出了一个手指，而结合深度图像得到的是三维姿态模型，其不仅包含二维图像的信息，还包含了另一维度(即深度)的信息，其识别结果更为准确。

步骤203，对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

输出的方式可以是多种多样的。举例来说，假设字符为字母，电子设备可以直接在显示界面上显示该字母，也可以显示该字母对应的多个候选汉字。电子设备可以将该字母输出给汉字输入法，以使汉字输入法在显示界面上显示这些候选汉字。

在实现时，电子设备可以将该三维姿态模型输入至预先训练得到的分类器中，从而得到与每一预定义的字符姿态模型之间的相似度，即属于每一预定义的字符姿态模型的概率；然后将最大概率对应的预定义的字符姿态模型确定为与该三维姿态模型相匹配的目标姿态模型，将该目标姿态模型对应的字符确定为目标字符；其中，该分类器可以通过每一预定义的字符姿态模型的样本图像训练深度学习模型得到。

在本申请实施例中，提供一种打字方法，在该方法中，电子设备获取用户姿态的二维图像和深度图像；根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；对所述三维姿态模型进行分析，输出分析得到的目标字符；相比于仅基于二维图像确定用户姿态，从而实现无键盘打字功能，本申请实施例基于二维图像和深度图像确定的用户姿态更加准确，进而能够提高无键盘打字的效率。可以理解地，用户姿态的识别准确度直接影响了无键盘打字的效率，识别准确度低，用户需要多次做出识别错误的姿态，从而大大降低了打字效率，用户体验差；而用户姿态的识别准确度越高，无键盘打字的效率也就越高。

本申请实施例再提供一种打字方法，图4为本申请实施例打字方法的另一实现流程示意图，如图4所示，所述方法至少可以包括以下步骤401至步骤405：

步骤401，接收启动指令，所述启动指令用于指示启动姿态输入法。

在实际应用中，用户可以通过做出特定的姿态来启动该姿态输入法，也可以通过触摸或按压用于启动姿态输入法的按钮，来启动该姿态输入法。

可以理解地，所述姿态输入法，指的是用户通过做出不同的姿态即可实现对应字符的输入。例如，姿态输入法为手势输入法，用户可以通过做出不同的手势，使得电子设备识别并输出对应的字母。再如，姿态输入法还可以为体态输入法。

步骤402，响应于所述启动指令，启动所述姿态输入法。

在一些实施例中，电子设备可以在启动该姿态输入法之后，输出提示信息，以提示用户可以通过姿态进行打字。输出提示信息的方式可以是多种多样的，例如输出提示信号、输出语音提示或者输出文字提示。

可以理解地，这里启动姿态输入法的目的是为了使得同一姿态能够表示多种含义。例如，在姿态输入法被打开的前提下，某一姿态表示的是对应的字符；但是在该输入法被打开之前，该姿态表示的是一控制指令，如点击操作。

步骤403，获取用户姿态的二维图像和深度图像；

在一些实施例中，所述打字方法可以应用于头戴设备，该头戴设备可以包括用于采集所述用户姿态的深度相机。该头戴设备可以控制深度相机采集用户姿态的二维图像和深度图像。深度相机，例如可以是TOF相机，也可以是结构光模组。

在一些实施例中，TOF相机的图像传感器的长和宽的尺寸相同，以使所述TOF相机的镜头与所述图像传感器为内接圆关系，从而使得所述图像传感器采集的二维图像和深度图像的有效像素区域为以所述图像传感器中心为圆心的圆形区域；这样，就减少了二维图像和深度图像所包括的冗余信息，从而降低了对姿态识别的干扰，提高姿态识别的准确率，进而缩短无键盘打字的延迟性，提高无键盘打字的效率。

为了能够覆盖更大的姿态操作(例如手势操作)空间，在一些实施例中，深度相机的镜头的视场角范围为[100°,120°]。换言之，视场角可以是[100°,120°]内的任一角，本申请实施例中对此不做限定。当然，深度相机的镜头也可以是视场角小于100°的镜头。

步骤404，根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；

步骤405，对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

在本申请实施例中，提供一种打字方法，电子设备接收用户输入的启动指令，并响应于该指令，启动姿态输入法，从而实现无键盘打字功能。这样，在姿态输入法工作的模式下，用户做出的某一姿态才表示一字符，否则，该姿态则表示其他含义；如此，使得一个姿态可以具有多个含义，提高用户姿态的复用性。

本申请实施例再提供一种打字方法，图5A为本申请实施例打字方法的再一实现流程示意图，如图5A所示，所述方法至少可以包括以下步骤501至步骤508：

步骤501，获取用户姿态的二维图像和深度图像。

可以理解地，当实现步骤501的电子设备是服务器时，服务器可以接收用户终端发送的上述两张图像。这两张图像可以是用户终端通过TOF相机采集的，也可以是用户终端通过结构光模组先采集得到用户姿态的散斑图(即二维图像的一种示例)，然后基于该散斑图计算得到对应的深度图像。

当实现步骤501的电子设备不是服务器，而是用户终端时，用户终端可以通过自身的深度相机得到上述图像。例如，用户终端通过TOF相机采集得到上述两张图像；或者，用户终端通过结构光模组采集得到用户姿态的散斑图，然后基于该散斑图计算得到对应的深度图像。

步骤502，识别所述二维图像中包含的所述用户姿态的多个关键特征点。

在一些实施例中，关键特征点可以是用户身体的关节点，或者还可以是手部的关节点和掌心。

步骤503，将每一所述关键特征点的像素坐标转换为特定坐标系中的x坐标和y坐标。

可以理解地，所述特定坐标系的作用是为了将关键特征点的像素坐标和深度信息统一至一个坐标系下。在一些实施例中，特定坐标系为笛卡尔坐标系。

步骤504，从所述深度图像中提取每一所述关键特征点的深度信息；

步骤505，将每一所述关键特征点的深度信息转换为所述特定坐标系中的z坐标；

步骤506，基于每一所述关键特征点的x、y和z坐标，构建出所述三维姿态模型；

步骤507，将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型；其中，每一预定义的字符姿态模型用于唯一表示对应的字符。

可以理解地，字符指类字形单位或符号，包括字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号。

在一些实施例中，所述用户姿态可以为所述用户的手部姿态(也即手势)，所述预定义的字符姿态模型可以为字母手势模型，所述字母手势模型用于唯一表示对应的字母。例如图6所示，所述多个预定义的字符姿态模型为美语手语(American Sign Language，ASL)手势，每一ASL手势用于唯一表示ASL定义的字母。

可以理解地，在无键盘打字的应用场景中，定义一套标准化、通用性的手势操作指令，不仅方便了普通人群的使用，也极大地方便了一些特殊人群(如聋哑人群)的使用，这些特殊人群无需在重新学习新的手势操作，即可高效率地进行无键盘打字。

并且，多个预定义的字符姿态模型采用ASL手势，增强了打字方法的通用性，使得实现所述打字方法的电子设备更加容易被用户接受，尤其是那些聋哑人。

在一些实施例中，电子设备可以确定该三维姿态模型与每一预定义的字符姿态模型之间的相似度；然后将相似度满足特定条件的预定义的字符姿态模型，确定为与该三维姿态模型相匹配的目标姿态模型，将该目标姿态模型对应的字符作为目标字符输出。

步骤508，将所述目标姿态模型对应的字符作为所述目标字符输出。

对于步骤507，将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型，实现的方式可以是多种多样的。例如，在一些实施例中，如图5B所示，电子设备可以通过以下步骤5071和步骤5072实现步骤507所述的将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型：

步骤5071，确定所述三维姿态模型与每一所述预定义的字符姿态模型之间的相似度；

在一些实施例中，电子设备可以利用预先训练得到的分类器对所述三维姿态模型进行处理，得到与每一所述预定义的字符姿态模型之间的相似度，也就是该三维姿态模型属于每一预定义的字符姿态模型的概率；其中，所述分类器是利用每一所述预定义的字符姿态模型的样本图像对深度学习模型进行训练得到的。

需要说明的是，预定义的字符姿态模型对应一帧或多帧样本图像，多帧样本图像可以是相机在多个角度下采集的该字符姿态模型的图像；如此，能够提高分类器的计算准确度，从而提高姿态识别的准确度，进而提高无键盘打字的效率。

在另一些实施例中，电子设备可以确定三维姿态模型与每一预定义的字符姿态模型之间的欧式距离，以实现相似度的确定。

步骤5072，将相似度满足特定条件预定义的字符姿态模型，确定为所述目标姿态模型。

可以理解地，用于表征相似度的参数类型不同，对应的特定条件是不同的。例如，相似度是通过所述分类器确定的，即分类器输出的是该三维姿态模型属于每一预定义的字符姿态模型的概率，则对应的特定条件为最大概率。即，将每一概率中的最大概率对应的字符姿态模型确定为目标姿态模型。再如，相似度是通过计算两个模型之间的欧式距离确定的，则对应的特定条件是最小欧式距离。即，将每一欧式距离中的最小欧式距离对应的字符姿态模型确定为目标姿态模型。

再如，在一些实施例中，电子设备还可以直接通过分类器得到目标姿态模型，从而实现上述步骤507。即，电子设备将所述三维姿态模型输入至预先训练得到的分类器，得到与所述三维姿态模型相匹配的目标姿态模型；其中，所述分类器是利用每一所述预定义的字符姿态模型的样本图像对深度学习模型进行训练得到的。

发明人在研究过程中发现，手势识别的相关技术主要存在一些不足：

1、当前没有提出应用在AR眼镜上的手势识别打字方案，虽然AR眼镜等产品集成了手势识别功能，但是手势识别用于实现双击、滑动、点击等操作的识别，利用手势识别直接实现打字的功能还未完善；

2、很多手势识别方案是基于指尖特征点的轨迹定位来实现手写字符的识别，但是这种方式的识别准确率不高。而本申请实施例提供的手势识别打字方法是基于一类标准形态的手势样本实现的，识别准确率得到提升；

3、当前的手势识别是基于自定义的一套手势来实现一些双击、点击、滑动等控制操作的。例如，拳头挥两下，表示双击操作；拳头挥一下，表示单击操作；拳头左右滑动，表示滑动操作。然而定义的这种手势操作并非是国际通用的操作，且主要用于控制，而非打字，所以这种手势识别的使用群体一般是普通人群，其更加无法解决特殊人群(聋哑人群)的打字体验和打字效率；

4、当前手势识别操作等功能受识别准确率和延迟性的影响，未能满足用户交互体验的舒适度。也就是说，由于当前的手势识别准确率低，当手势识别错误时，需要用户重复之前所做出的手势，甚至于用户需要多次重复做出同一手势，才能准确识别手势所要表达的含义，这样就降低了手势识别操作的效率，手势识别的延迟性增加。

基于此，下面将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供了一种应用在AR眼镜上的TOF深度相机手势识别打字系统的设计方案。通过定义一套标准的手势字母来替代固化键盘的物理按键。结合AR眼镜上的TOF深度相机可以实时捕捉手势的红外图像(即二维图像的一种示例)和深度图像，再经过特定的手势识别算法流程，实时输出手势对应的字母，实现无键盘打字的功能。

26个英文字母对应的手势，即预定义的字符姿态模型的一种示例，如图6所示，即美语手语(American Sign Language，ASL)手势字母，所谓手势字母即通过手势表示的字母。采用上述标准定义的手势识别既适用于普通使用者，而且适用于聋哑人等特殊人群。定义26个英文字母手势之后，采用TOF深度相机采集大量的手势深度图像和红外灰度图像(即IR图像)，用作算法分类器的手势识别样本。对这些手势识别样本进行手势特征点的提取，确定每一样本的手势特征点的位姿信息，该位姿信息例如可以是笛卡尔坐标下的三维坐标信息；基于每一样本的手势特征点的位姿信息，构建该样本包含的三维手势模型；将这些三维手势模型作为训练样本，将每一三维手势模型对应的字母作为标签，对深度学习模型进行训练，从而得到上述分类器。

对于打字系统的硬件设计，如图7所示，其示出了一款集成在AR眼镜上的大视场角TOF深度相机模组，整个用于手势识别打字的硬件模块包括大视场角TOF深度相机70、处理芯片和电路72、以及AR眼镜镜片和显示系统73；用户可以在TOF深度相机的视场内操作ASL英文字母手势71。用户在AR眼镜前端进行手势操作，从而被AR眼镜上的TOF深度相机所捕获，TOF深度相机将采集的图像实时传输到处理芯片上，经过手势识别相关算法处理，实现手势识别打字的功能。

图8为TOF深度相机模组深度成像示意图，如图8所示，为了覆盖更大的手势操作空间，TOF深度相机镜头的视场角设计为[100°,120°]，TOF相机的图像传感器的长和宽的尺寸比例为1:1，像素数为512×512。TOF相机的图像传感器的长和宽的尺寸比例设计为1:1的原因是：为了和大视场角镜头的视场(Field of View，FOV)做内接圆配合，从而使得输出的深度图像只包含视场范围内的信息。TOF深度成像作为一种主动发射的3D成像技术，发射模组发射调试的光脉冲信号，接收模组接收到发射光信号后，通过计算光线发射时间与反射时间的时间差或相位差，计算得到手势的深度信息。

对于软件系统设计，本申请实施例提供的TOF手势识别打字系统的软件系统主要包括：手势图像采集模块、手势检测模块、手势识别模块和应用模块。

其中，手势图像采集模块使用本申请实施例设计的大角度TOF深度相机，实时采集相关的手势图像和视频流数据。采集的手势图像包括940纳米(nanometer，nm)波段或者850nm波段的红外灰度图和深度图像，分辨率为512×512，有效像素区域为78％，即以图像传感器中心为圆心的圆形区域。采集的视频流数据帧率可以达到30帧每秒(frames persecond，fps)，满足手势识别的实时性要求。

手势检测模块，利用基于红外灰度图像和深度信息的方法来进行手势检测，主要流程包括：相机标定和重投影、红外灰度图像和深度图像分割等。

手势识别模块和应用模块，主要是利用上述红外灰度和深度图像识别手势，主要流程包括：手势样本数据的准备、分类器训练和手势特征点(包含关节特征点)提取等。

在本申请实施例中，提供的打字方法，摆脱了物理按键和触摸屏打字的限制，可以实现隔空打字的功能；采用TOF深度相机进行手势识别的打字方案，改善了人机交互方式，在AR眼镜等产品上有更高自由度和舒适度的体验和应用；采用手势识别的打字方式，可以解决特殊人群(如聋哑人群等)的打字体验和打字效率。

本申请实施例提供一种应用在AR眼镜上取代物理键盘的打字方式。该方案通过AR眼镜上集成的大视场角TOF深度相机实时捕获和识别手势，通过定义和采集手势样本库，结合手势检测和手势识别算法，实现隔空打字、手势打字的功能。该方案彻底摆脱了物理键盘和触摸屏打字的限制，具有操作自由度高等优势。

在一些实施例中，用于手势识别的深度传感器还可以是结构光模组。集成在AR眼镜上的深度相机改为结构光模组，如图9所示，整个用于手势识别打字的硬件模块包括大视场角的结构光模组90、处理芯片和电路92、以及AR眼镜镜片和显示系统93。用户在AR眼镜前端进行手势操作，从而被AR眼镜上的结构光深度相机所捕获，结构光深度相机包括发射端和接收端，将采集的深度图像实时传输到处理芯片上，经过手势识别相关算法处理，实现手势识别打字的功能。

在一些实施例中，如图10所示，用于手势识别的3D结构光模组深度成像基本原理是：通过近红外激光器，将具有一定结构特征的光线投射到被拍摄物体上，再由专门的红外摄像头进行采集。这种具备一定结构的光线，会因被摄物体的不同深度区域，而采集不同的图像相位信息，然后通过运算单元将这种结构的变化换算成深度信息，以此来获得三维结构。另外，基于结构光的手势识别打字系统的算法和软件架构和基于TOF相机的基本一致。且利用结构光的优势是深度成像精度更高。

基于前述的实施例，本申请实施例提供的打字装置，可以包括所包括的各模块、以及各模块所包括的各单元，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图11A为本申请实施例打字装置的结构示意图，如图11A所示，所述装置110包括图像获取模块111、模型构建模块112和字符输出模块113，其中：图像获取模块111，用于获取用户姿态的二维图像和深度图像；

模型构建模块112，用于根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；

字符输出模块113，用于对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

在一些实施例中，如图11B所示，装置110还包括：指令接收模块114和启动模块115；其中，指令接收模块114，用于接收启动指令，所述启动指令用于指示启动姿态输入法；启动模块115，用于响应于所述启动指令，启动所述姿态输入法。

在一些实施例中，装置110可以是头戴设备，图像获取模块111为深度相机，用于采集所述用户姿态的二维图像和深度图像，或者采集用户姿态的二维图像。

在一些实施例中，所述头戴设备为AR眼镜，所述深度相机为TOF相机或结构光模组。

在一些实施例中，所述TOF相机的图像传感器的长和宽的尺寸相同，以使所述TOF相机的镜头与所述图像传感器为内接圆关系，从而使得所述图像传感器采集的二维图像和深度图像的有效像素区域为以所述图像传感器中心为圆心的圆形区域。

在一些实施例中，所述深度相机的镜头的视场角范围为[100°,120°]。

在一些实施例中，模型构建模块112，用于：识别所述二维图像中包含的所述用户姿态的多个关键特征点；将每一所述关键特征点的像素坐标转换为特定坐标系中的x坐标和y坐标；从所述深度图像中提取每一所述关键特征点的深度信息；将每一所述关键特征点的深度信息转换为所述特定坐标系中的z坐标；基于每一所述关键特征点的x、y和z坐标，构建出所述三维姿态模型。

在一些实施例中，字符输出模块113，用于：将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型；其中，每一预定义的字符姿态模型用于唯一表示对应的字符；将所述目标姿态模型对应的字符作为所述目标字符输出。

在一些实施例中，字符输出模块113，用于：确定所述三维姿态模型与每一所述预定义的字符姿态模型之间的相似度；将相似度满足特定条件预定义的字符姿态模型，确定为所述目标姿态模型。

在一些实施例中，字符输出模块113，用于：利用预先训练得到的分类器对所述三维姿态模型进行处理，得到与每一所述预定义的字符姿态模型之间的相似度；其中，所述分类器是利用每一所述预定义的字符姿态模型的样本图像对深度学习模型进行训练得到的。

在一些实施例中，所述用户姿态为所述用户的手部姿态，所述预定义的字符姿态模型为字母手势模型，所述字母手势模型用于唯一表示对应的字母。

在一些实施例中，所述多个预定义的字符姿态模型为美语手语ASL手势，每一ASL手势用于唯一表示ASL定义的字母。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的打字方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，如图12所示，本申请实施例提供的电子设备120，可以包括：包括存储器121和处理器122，所述存储器121存储有可在处理器122上运行的计算机程序，所述处理器122执行所述程序时实现上述实施例中提供的打字方法中的步骤。

存储器121配置为存储由处理器122可执行的指令和应用，还可以缓存待处理器122以及电子设备120中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

对应地，本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的打字方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种打字方法，其特征在于，所述方法包括：

获取用户姿态的二维图像和深度图像；

根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；

对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

2.根据权利要求1所述的方法，其特征在于，在所述获取用户姿态的二维图像和深度图像之前，所述方法还包括：

接收启动指令，所述启动指令用于指示启动姿态输入法；

响应于所述启动指令，启动所述姿态输入法。

3.根据权利要求1所述的方法，其特征在于，所述对所述三维姿态模型进行分析，输出分析得到的目标字符，包括：

将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型；其中，每一所述预定义的字符姿态模型用于唯一表示对应的字符；

将所述目标姿态模型对应的字符作为所述目标字符输出。

4.根据权利要求3所述的方法，其特征在于，所述将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型，包括：

确定所述三维姿态模型与每一所述预定义的字符姿态模型之间的相似度；

将相似度满足特定条件预定义的字符姿态模型，确定为所述目标姿态模型。

5.根据权利要求3所述的方法，其特征在于，所述将所述三维姿态模型与多个预定义的字符姿态模型进行匹配，得到目标姿态模型，包括：

将所述三维姿态模型输入至预先训练得到的分类器，得到与所述三维姿态模型相匹配的目标姿态模型；其中，所述分类器是利用每一所述预定义的字符姿态模型的样本图像对深度学习模型进行训练得到的。

6.根据权利要求3至5任一项所述的方法，其特征在于，所述用户姿态为所述用户的手部姿态，所述预定义的字符姿态模型为字母手势模型，所述字母手势模型用于唯一表示对应的字母。

7.根据权利要求6所述的方法，其特征在于，所述多个预定义的字符姿态模型为美语手语ASL手势，每一ASL手势用于唯一表示ASL定义的字母。

8.根据权利要求1所述的方法，其特征在于，所述方法应用于头戴设备，所述头戴设备包括用于采集所述用户姿态的深度相机；

相应地，所述获取用户姿态的二维图像和深度图像，包括：所述头戴设备控制所述深度相机采集所述用户姿态的二维图像和深度图像。

9.根据权利要求8所述的方法，其特征在于，所述深度相机为飞行时间TOF相机，所述TOF相机的图像传感器的长和宽的尺寸相同，以使所述TOF相机的镜头与所述图像传感器为内接圆关系，从而使得所述图像传感器采集的二维图像和深度图像的有效像素区域为以所述图像传感器中心为圆心的圆形区域。

10.根据权利要求8或9所述的方法，其特征在于，所述深度相机的镜头的视场角范围为[100°,120°]。

11.根据权利要求1所述的方法，其特征在于，所述根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型，包括：

识别所述二维图像中包含的所述用户姿态的多个关键特征点；

将每一所述关键特征点的像素坐标转换为特定坐标系中的x坐标和y坐标；

从所述深度图像中提取每一所述关键特征点的深度信息；

将每一所述关键特征点的深度信息转换为所述特定坐标系中的z坐标；

基于每一所述关键特征点的x、y和z坐标，构建出所述三维姿态模型。

12.一种打字装置，其特征在于，包括：

图像获取模块，用于获取用户姿态的二维图像和深度图像；

模型构建模块，用于根据所述二维图像和所述深度图像，构建所述用户的三维姿态模型；

字符输出模块，用于对所述三维姿态模型进行分析，输出分析得到的目标字符，以实现无键盘打字功能。

13.电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至11任一项所述打字方法中的步骤。

14.计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11任一项所述打字方法中的步骤。