CN112558810B

CN112558810B - 检测指尖位置的方法、装置、设备和存储介质

Info

Publication number: CN112558810B
Application number: CN202011439152.3A
Authority: CN
Inventors: 杨黔生; 沈辉; 王健; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-10-03
Anticipated expiration: 2040-12-11
Also published as: CN112558810A

Abstract

本申请公开了一种检测指尖位置的方法、装置、设备和存储介质，涉及人工智能技术领域，具体涉及计算机视觉和深度学习等领域。具体实现方案包括：获取样本图像以及与样本图像对应的多个分辨率下的标注特征，其中，样本图像中包括指尖，标注特征包括指尖标注特征；基于机器学习模型，从样本图像中提取出多个分辨率下的样本特征，样本特征包括对指尖位置预测的指尖样本特征；对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，训练机器学习模型，以生成指尖检测模型，指尖检测模型用于检测待检测图像中的指尖位置。本申请实施例的技术方案可以应用于语音讲解、在线教育、智能教育等场景下，可以提高指尖检测的精度和效率。

Description

检测指尖位置的方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及计算机视觉和深度学习领域。

背景技术

指尖检测技术作为教育平台的基础被广泛运用于在线知识疑问解答的点读场景中。如果使用先提取手位置再进行指尖检测的多阶段的处理检测方案，一方面多阶段的技术方案在每个技术环节都会一定程度上造成精度的损失，此外，多阶段的检测技术在运行效率上会更低，同时对硬件设备的要求也会更高。这在很大程度上限制了指尖检测技术在实际场景中的运用。

发明内容

本申请提供了一种检测指尖位置的方法、装置、设备和存储介质。

根据本申请的第一方面，提供了一种指尖检测模型的生成方法，包括：

获取样本图像以及与样本图像对应的多个分辨率下的标注特征，其中，样本图像中包括指尖，标注特征包括指尖标注特征；

基于机器学习模型，从样本图像中提取出多个分辨率下的样本特征，样本特征包括对指尖位置预测的指尖样本特征；

对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，训练机器学习模型，以生成指尖检测模型，指尖检测模型用于检测待检测图像中的指尖位置。

根据本申请的第二方面，提供了一种检测指尖位置的方法，包括：

获取待检测图像；

基于指尖检测模型从待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，指尖检测模型由上述第一方面的方法生成；

从多个待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

根据输出指尖特征确定待检测图像中的指尖位置。

根据本申请的第三方面，提供了一种检测指尖位置的方法，包括：

获取待检测图像；

基于指尖检测模型从待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，指尖检测模型由上述第一方面的方法生成；

从多个待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

根据输出关键点特征确定待检测图像中的指尖位置。

根据本申请的第四方面，提供了一种指尖检测模型的生成装置，包括：

样本图像获取模块，用于获取样本图像以及与样本图像对应的多个分辨率下的标注特征，其中，样本图像中包括指尖，标注特征包括指尖标注特征；

样本特征提取模块，用于基于机器学习模型，从样本图像中提取出多个分辨率下的样本特征，样本特征包括对指尖位置预测的指尖样本特征；

训练模块，用于对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，训练机器学习模型，以生成指尖检测模型，指尖检测模型用于检测待检测图像中的指尖位置。

根据本申请的第五方面，提供了一种检测指尖位置的装置，包括：

第一待检测图像获取模块，用于获取待检测图像；

待选指尖特征提取模块，用于基于指尖检测模型从待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，指尖检测模型由上述生成装置生成；

输出指尖特征确定模块，用于从多个待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

第一指尖位置确定模块，用于根据输出指尖特征确定待检测图像中的指尖位置。

根据本申请的第六方面，提供了一种检测指尖位置的装置，包括：

第二待检测图像获取模块，获取待检测图像；

待选关键点特征提取模块，用于基于指尖检测模型从待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，指尖检测模型由本申请实施例的生成装置生成；

输出关键点特征确定模块，用于从多个待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

第二指尖位置确定模块，用于根据输出关键点特征确定待检测图像中的指尖位置。

根据本申请的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意实施例提供的方法。

根据本申请的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意实施例提供的方法。

根据本申请的第九方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请任意实施例提供的方法。

本申请实施例的技术方案可以应用于语音讲解、在线教育、智能教育等场景下，可以提高指尖检测的精度和效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的应用场景的示意图；

图2是根据本申请实施例一的流程图；

图3是根据本申请实施例一中一种实施方式的流程图；

图4是根据本申请实施例的指尖位置检测模型的应用示例图；

图5-1是根据本申请实施例一的热图示例图；

图5-2是根据本申请实施例的偏移矢量示例图；

图6是根据本申请实施例二的流程图；

图7是根据本申请实施例二的热图示例图；

图8是根据本申请实施例三的流程图；

图9是根据本申请实施例四的流程图；

图10是根据本申请实施例的指尖位置检测结果的示例图；

图11是根据本申请实施例五的框图；

图12是根据本申请实施例五中一种实施方式的框图；

图13是根据本申请实施例五中另一种实施方式的框图；

图14是根据本申请实施例六的框图；

图15是根据本申请实施例七的框图；

图16是用来实现本申请实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请实施例的应用场景示意图。如图1所示，终端设备101可以是硬件，如手机、平板、车载终端、便携计算机或台式计算机等具有显示屏的电子设备。当终端设备101为软件时，可安装于上述电子设备中。服务器102可以提供各种服务，例如为安装于终端设备101上的应用提供支持。本申请实施例提供的方法可以由服务器102执行，也可以由终端设备101执行，相应的与方法对应的装置可以设置于终端设备101中，也可以设置于服务器102中。其中，为了实现需要可以配置任意数量的终端设备、网络和服务器。

在一个示例中，在语音讲解、在线教育、智能教育等场景下，待检测图像或样本图像可以输入终端设备101中，由终端设备101执行本申请实施例的指尖检测模型的生成方法或检测指尖位置的方法；也可以由终端设备101将待检测图像或样本图像发送给服务器102，由服务器102执行本申请实施例的指尖检测模型的生成方法或检测指尖位置的方法。

实施例一

图2示出本申请实施例一的指尖检测模型的生成方法，如图2所示，该方法包括：

步骤S201、获取样本图像以及与样本图像对应的多个分辨率下的标注特征，其中，样本图像中包括指尖，标注特征包括指尖标注特征；

步骤S202、基于机器学习模型，从样本图像中提取出多个分辨率下的样本特征，样本特征包括对指尖位置预测的指尖样本特征；

步骤S203、对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，训练机器学习模型，以生成指尖检测模型，指尖检测模型用于检测待检测图像中的指尖位置。

样本图像中包括手部元素，如指尖。标注特征包括指尖标注特征，即对指尖位置标注的标注特征。本申请实施例中，特征可以为图像形式，如热图(图5-1)或偏移矢量图(图5-2)。

示例性地，对样本图像进行不同尺度缩放、旋转角度、彩色空间的扰动增强，可以得到更多地样本图像。每张样本图像均对应有多个分辨率下的指尖标注特征。例如，分辨率有四个，那么每张样本图像分别对应有四组指尖标注特征，每组指尖标注特征对应一个分辨率。

机器学习模型可以从样本图像中提取出多组对指尖位置预测的指尖样本特征，每组指尖样本特征对应一个分辨率。提取特征过程中的分辨率数量和大小与指尖标注特征对应的分辨率数量和大小相对应。示例性地，机器学习模型可以resnet50的主干网络，通过主干网络提取深度特征。

由此，可以得到每个分辨率下的指尖标注特征和指尖样本特征，进而训练机器学习模型，训练完成后得到指尖检测模型。

根据本申请实施例的方法通过对不同分辨率的特征进行学习，可以有效挖掘困难样本进行训练，使得训练后的指尖检测模型具有更高的精度，进而提升指尖检测的精度。进一步，不需要将手部先进行定位，直接对指尖位置进行检测，可以提高检测效率。本申请实施例的方法可以应用于语音讲解、在线教育、智能教育等场景下，基于指尖检测进行点读。

在一种实施方式中，如图3所示，在步骤S202中，从样本图像中提取出多个分辨率下的样本特征，可以包括：

步骤S301、对样本图像进行不同倍数的下采样，得到多个不同分辨率和不同语义层次的第一语义特征；

步骤S302、对第一语义特征中的高语义层特征进行相应倍数的上采样，得到多个不同分辨率的第二语义特征，第二语义特征均为高语义层特征；

步骤S303、对于相同分辨率，融合具有不同语义层次的第一语义特征和第二语义特征，得到多个分辨率下的样本特征。

示例性地，如图4所示，通过机器学习模型的主干网络对样本图像进行不同倍数的下采样(卷积)，如4倍、8倍、16倍和32倍，得到多个不同分辨率的第一语义特征。其中，随着加深倍数递增，分辨率递减，而第一语义特征的语义层次递增。即4倍得到高分辨率的低语义层特征、8倍得到中分辨率的中语义层特征、16倍得到中分辨率的中语义层特征(分辨率低于8倍加深)和32倍得到低分辨率的高语义层特征。

将下采样过程得到的低分辨率的高语义层特征(即示例中的32倍结果)进行不同倍数的上采样，即16倍、8倍和4倍，得到多个不同分辨率的第二语义特征。其中，第二语义特征均为高语义层特征，随着加深倍数递减，分辨率递增。即16倍得到中分辨率的高语义层特征、8倍得到中分辨率的高语义层特征(分辨率高于16倍结果)和4倍得到高分辨率的高语义层特征。

对于相同分辨率，融合不同语义层次的第一语义特征和第二语义特征，得到输出预测的结果(本实施例中为样本特征)。需要说明的是，输出预测的样本特征的通道保持一致(图4中输出方块高度一致)，但分辨率不同(图4中输出方块大小不一样)。示例性地，本实施例中，第一语义特征和第二语义特征均为指尖特征，输出预测的样本特征为指尖样本特征。

通过低分辨率的输出可以有效定位关键点空间位置，从而提升对应空间位置的注意力(利用定位)，在高分辨率的特征层上的输出构建可有效学习局部细节的语义信息(利于识别)，使得训练后的指尖检测模型具有更高的精度和检测效率。

在一种实施方式中，指尖标注特征包括第一标注热图和第一标注偏移矢量，指尖样本特征包括第一样本热图和第一样本偏移矢量；在步骤S203中对于每个分辨率可以包括：根据第一标注热图和第一样本热图生成第一损失函数；根据第一标注偏移矢量和第一样本偏移矢量生成第二损失函数；根据第一损失函数和第二损失函数，调整机器学习模型的参数，以生成指尖检测模型。

示例性地，图5-1示出了样本图像(左侧)对应的第一标注热图(右侧)的示意图；图5-2示出了第一标注偏移矢量的示意图。

示例性地，基于第一损失函数计算均方差(Mean Squared Error，MSE)损失值，第二损失函数可以L1的向量回归损失函数，进而经过多轮训练，不断调整模型参数，直到训练完成。

针对热图的输出，可通过构建的标签图计算其MSE损失值，在偏移矢量图上，通过提取对应关键点位置的预测偏移量可构建L1的向量回归损失。

本申请实施例中，通过对指尖位置生成高斯热图，可以高效表达指尖位于热图中的坐标值，如图5-1所示。基于深度信息模型的方案，通常会带来图像下采样的分辨率降低的问题，为了提高由于分辨率下降带来的精度损失，在热图的基础上同时进行偏移矢量学习。通过对包含手部元素的图像，直接进行单阶段自底向上的学习，且同步学习热图和偏移矢量完成对指尖检测模型的训练。

实施例二

图6示出根据本申请实施例二的指尖检测模型的生成方法的流程图。在本实施例中，样本图像中还包括手部上的非指尖关键点，标注特征还包括非指尖关键点标注特征，样本特征还包括对非指尖关键点的位置预测的非指尖关键点样本特征。如图6所示，在步骤S203中可以包括：

步骤S601、对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，以及分辨率下的非指尖关键点标注特征和非指尖关键点样本特征，训练机器学习模型。

由于非指尖点关键点和指尖关键点指尖具有拓扑关系，通过学习这种拓扑关系，可以更好定位。进一步地，样本图像中的非指尖点关键点可以有多个，每个分辨率下，一个样本图像对应的非指尖关键点标注特征和非指尖关键点样本特征也相应地为多组，通过多个关键点的联合训练，可以提高检测准确度。例如在指尖点被遮挡时，通过联合定位是可以推测出指尖位置的。

在一种实施方式中，指尖标注特征包括第一标注热图和第一标注偏移矢量，指尖样本特征包括第一样本热图和第一样本偏移矢量；非指尖关键点标注特征包括第二标注热图和第二标注偏移矢量，非指尖关键点样本特征包括第二样本热图和第二样本偏移矢量；进一步地，在步骤S601中每个分辨率，可以包括：

根据第一标注热图和第一样本热图，以及第二标注热图和第二样本偏移矢量，生成第一损失函数；根据第一标注偏移矢量和第一样本偏移矢量，以及第二标注偏移矢量和第二样本偏移矢量，生成第二损失函数；根据第一损失函数和第二损失函数，调整机器学习模型的参数。

示例性地，图7示出了样本图像(左侧)对应的第二标注热图(右侧)的示意图。

示例性地，如图4所示，通过机器学习模型的主干网络进行不同倍数的下采样，如4倍、8倍、16倍和32倍，得到多个不同分辨率的第一语义特征(包括指尖样本特征和非指尖关键点样本特征)；将第一语义特征中的高语义层特征进行不同倍数的上采样，如16倍、8倍和4倍，得到多个不同分辨率的第二语义特征(包括指尖样本特征和非指尖关键点样本特征)。对于相同分辨率，融合具有不同语义层次的第一语义特征和第二语义特征，得到多个分辨率下的输出结果(指尖样本特征和非指尖关键点样本特征)。

针对每个关键点(包括指尖关键点和非指尖关键点)，机器学习模型将输出一个热图通道(如图7所示)，一个x方向的偏移矢量通道和一个y方向的偏移矢量通道，完成通过样本特征图到网络模型的输出映射。针对输出的热图通道，构建第一损失函数；针对输出x方向和y方向的偏移矢量通告，构建第二损失函数，进而多轮学习，调整机器学习模型的参数，以生成指尖检测模型。

本申请实施例中，通过对各关键点生成高斯热图，可以高效表达各关键点位于热图中的坐标值，如图7所示。基于深度信息模型的方案，通常会带来图像下采样的分辨率降低的问题，为了提高由于分辨率下降带来的精度损失，在热图的基础上同时进行偏移矢量学习。通过对包含手部元素的图像，直接进行单阶段自底向上的学习，且同步学习热图和偏移矢量完成对指尖检测模型的训练。

实施例三

图8示出根据本申请实施例三的检测指尖位置的方法的流程图。如图8所示，该方法包括：

步骤S801、获取待检测图像；

步骤S802、基于指尖检测模型从待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，指尖检测模型由实施例一或实施例二中的任一实施方式的方法生成；

步骤S803、从多个待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

步骤S804、根据输出指尖特征确定待检测图像中的指尖位置。

将待检测图像输入训练好的指尖检测模型，可以得到多个分辨率的输出，即待选指尖特征。预设分辨率标准可以根据输出图像的要求进行设置，优选地，预设分辨率标准为选择高分辨率，即从多个待选指尖特征中选择分辨率最高的待选指尖特征作为输出指尖特征。例如，在图4中，可以选择标号为A的输出作为输出指尖特征。进而根据输出指尖特征确定出待检测图像中的指尖位置。

在一种实施方式中，输出指尖特征包括输出热图和输出偏移矢量，在步骤S804中可以包括：解析输出热图的峰值位置，得到经指尖检测模型下采样后的指尖预测位置；解析指尖预测位置的矢量值，得到指尖预测位置矢量；根据指尖预测位置矢量和输出偏移矢量，确定待检测图像中的指尖位置。

通过对输出热图的峰值位置解析可获取经过下采样后的指尖预测位置，通过解析预测位置的对应矢量值，可得到指尖预测位置矢量；结合下采样后的指尖预测位置和偏移矢量，计算得到指尖位置真值，即待检测图像中的指尖位置。

实施例四

图9示出根据本申请实施例四的检测指尖位置的方法的流程图。如图9所示，该方法包括：

步骤S901、获取待检测图像；

步骤S902、基于指尖检测模型从待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，指尖检测模型由实施例二中任一实施方式的方法生成；

步骤S903、从多个待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

步骤S904、根据输出关键点特征确定待检测图像中的指尖位置。

在一种实施方式中，关键点特征包括输出热图和输出偏移矢量，在步骤S904中还可以包括：解析输出热图的峰值位置，得到经关键点检测模型下采样后的关键点预测位置；解析关键点预测位置的矢量值，得到关键点预测位置矢量；根据关键点预测位置矢量和输出偏移矢量，确定待检测图像中的关键点位置。

通过对输出热图的峰值位置解析可获取经过下采样后的关键点预测位置，通过解析预测位置的对应矢量值，可得到关键点预测位置矢量；结合下采样后的关键点预测位置和偏移矢量，计算得到关键点位置的真值。

根据实施例二的方法生成的指尖检测模型，在训练过程中，对多个手部关键点(指尖关键点和非指尖关键点)联合学习，因此，可以得到各关键点之间的拓扑关系，因此，即使输出关键点特征中没有指尖关键点特征，也可以根据非指尖关键点的位置，确定出待检测图像中的指尖位置，如图10所示。

实施例五

图11示出根据本申请实施例五的指尖检测模型的生成装置的框图，如如图11所示，该装置包括：

样本图像获取模块1101，用于获取样本图像以及与样本图像对应的多个分辨率下的标注特征，其中，样本图像中包括指尖，标注特征包括指尖标注特征；

样本特征提取模块1102，用于基于机器学习模型，从样本图像中提取出多个分辨率下的样本特征，样本特征包括对指尖位置预测的指尖样本特征；

训练模块1103，用于对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，训练机器学习模型，以生成指尖检测模型，指尖检测模型用于检测待检测图像中的指尖位置。

在一种实施方式中，如图12所示，样本特征提取模块1102包括：

下采样子模块1201，用于对样本图像进行不同倍数的下采样，得到多个不同分辨率和不同语义层次的第一语义特征；

上采样子模块1202，用于对第一语义特征中的高语义层特征进行相应倍数的上采样，得到多个不同分辨率的第二语义特征，第二语义特征均为高语义层特征；

级联子模块1203，用于对于相同分辨率，融合具有不同语义层次的第一语义特征和第二语义特征，得到多个分辨率下的样本特征。

在一种实施方式中，指尖标注特征包括第一标注热图和第一标注偏移矢量，指尖样本特征包括第一样本热图和第一样本偏移矢量；如图13所示，训练模块1103包括：

第一损失函数生成子模块1301，用于根据第一标注热图和第一样本热图生成第一损失函数；

第二损失函数生成子模块1302，用于根据第一标注偏移矢量和第一样本偏移矢量生成第二损失函数；

调整子模块1303，用于根据第一损失函数和第二损失函数，调整机器学习模型的参数，以生成指尖检测模型。

在一种实施方式中，样本图像中还包括手部上的非指尖关键点，标注特征还包括非指尖关键点标注特征，样本特征还包括对非指尖关键点的位置预测的非指尖关键点样本特征；训练模块1103还用于：

对于每个分辨率，根据分辨率下的指尖标注特征和指尖样本特征，以及分辨率下的非指尖关键点标注特征和非指尖关键点样本特征，训练机器学习模型。

在一种实施方式中，指尖标注特征包括第一标注热图和第一标注偏移矢量，指尖样本特征包括第一样本热图和第一样本偏移矢量；非指尖关键点标注特征包括第二标注热图和第二标注偏移矢量，非指尖关键点样本特征包括第二样本热图和第二样本偏移矢量；训练模块1103还用于：

根据分辨率下的指尖标注特征和指尖样本特征，以及分辨率下的非指尖关键点标注特征和非指尖关键点样本特征，训练机器学习模型，包括：

根据第一标注热图和第一样本热图，以及第二标注热图和第二样本偏移矢量，生成第一损失函数；

根据第一标注偏移矢量和第一样本偏移矢量，以及第二标注偏移矢量和第二样本偏移矢量，生成第二损失函数；

根据第一损失函数和第二损失函数，调整机器学习模型的参数。

实施例六

本申请实施例提供一种检测指尖位置的装置，如图14所示，该装置包括：

第一待检测图像获取模块1401，用于获取待检测图像；

待选指尖特征提取模块1402，用于基于指尖检测模型从待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，指尖检测模型由上述的生成装置生成；

输出指尖特征确定模块1403，用于从多个待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

第一指尖位置确定模块1404，用于根据输出指尖特征确定待检测图像中的指尖位置。

在一种实施方式中，输出指尖特征包括输出热图和输出偏移矢量，第一指尖位置确定模块包括：

第一解析模块，用于解析输出热图的峰值位置，得到经指尖检测模型下采样后的指尖预测位置；

第二解析模块，用于解析指尖预测位置的矢量值，得到指尖预测位置矢量；

指尖位置确定子模块，用于根据指尖预测位置矢量和输出偏移矢量，确定待检测图像中的指尖位置。

实施例七

本申请实施例提供一种检测指尖位置的装置，如图15所示，该装置包括：

第二待检测图像获取模块1501，获取待检测图像；

待选关键点特征提取模块1502，用于基于指尖检测模型从待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，指尖检测模型由上述的生成装置生成；

输出关键点特征确定模块1503，用于从多个待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

第二指尖位置确定模块1504，用于根据输出关键点特征确定待检测图像中的指尖位置。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图16所示，是根据本申请实施例的生成方法或检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图16所示，该电子设备包括：一个或多个处理器1601、存储器1602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图16中以一个处理器1601为例。

存储器1602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的生成方法或检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的生成方法或检测方法。

存储器1602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的生成方法或检测方法或生成装置或评估装置对应的程序指令/模块。处理器1601通过运行存储在存储器1602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的生成方法或检测方法。

存储器1602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据生成方法或检测方法的电子设备的使用所创建的数据等。此外，存储器1602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1602可选包括相对于处理器1601远程设置的存储器，这些远程存储器可以通过网络连接至生成方法或检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

生成方法或检测方法的电子设备还可以包括：输入装置1603和输出装置1604。处理器1601、存储器1602、输入装置1603和输出装置1604可以通过总线或者其他方式连接，图16中以通过总线连接为例。

输入装置1603可接收输入的数字或字符信息，以及产生与生成方法或检测方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种指尖检测模型的生成方法，包括：

获取样本图像以及与所述样本图像对应的多个分辨率下的标注特征，其中，所述样本图像中包括指尖，所述标注特征包括指尖标注特征；

基于机器学习模型，对所述样本图像进行不同倍数的下采样，得到多个不同分辨率和不同语义层次的第一语义特征；

对所述第一语义特征中的高语义层特征进行相应倍数的上采样，得到多个不同分辨率的第二语义特征，所述第二语义特征均为高语义层特征；

对于相同分辨率，融合具有不同语义层次的第一语义特征和第二语义特征，得到多个分辨率下的样本特征，所述样本特征包括对指尖位置预测的指尖样本特征；

对于每个分辨率，根据所述分辨率下的指尖标注特征和指尖样本特征，训练所述机器学习模型，以生成指尖检测模型，所述指尖检测模型用于检测待检测图像中的指尖位置。

2.根据权利要求1所述的生成方法，其中，所述指尖标注特征包括第一标注热图和第一标注偏移矢量，所述指尖样本特征包括第一样本热图和第一样本偏移矢量；

根据所述分辨率下的指尖标注特征和指尖样本特征，训练所述机器学习模型，包括：

根据所述第一标注热图和所述第一样本热图生成第一损失函数；

根据所述第一标注偏移矢量和所述第一样本偏移矢量生成第二损失函数；

根据所述第一损失函数和所述第二损失函数，调整所述机器学习模型的参数，以生成所述指尖检测模型。

3.根据权利要求1所述的生成方法，其中，所述样本图像中还包括手部上的非指尖关键点，所述标注特征还包括非指尖关键点标注特征，所述样本特征还包括对非指尖关键点的位置预测的非指尖关键点样本特征；

对于每个分辨率，根据所述分辨率下的指尖标注特征和指尖样本特征，训练所述机器学习模型，包括：

对于每个分辨率，根据所述分辨率下的指尖标注特征和指尖样本特征，以及所述分辨率下的非指尖关键点标注特征和非指尖关键点样本特征，训练所述机器学习模型。

4.根据权利要求3所述的生成方法，其中，所述指尖标注特征包括第一标注热图和第一标注偏移矢量，所述指尖样本特征包括第一样本热图和第一样本偏移矢量；所述非指尖关键点标注特征包括第二标注热图和第二标注偏移矢量，所述非指尖关键点样本特征包括第二样本热图和第二样本偏移矢量；

根据所述分辨率下的指尖标注特征和指尖样本特征，以及所述分辨率下的非指尖关键点标注特征和非指尖关键点样本特征，训练所述机器学习模型，包括：

根据所述第一标注热图和所述第一样本热图，以及所述第二标注热图和所述第二样本偏移矢量，生成第一损失函数；

根据所述第一标注偏移矢量和所述第一样本偏移矢量，以及所述第二标注偏移矢量和所述第二样本偏移矢量，生成第二损失函数；

根据所述第一损失函数和所述第二损失函数，调整所述机器学习模型的参数。

5.一种检测指尖位置的方法，包括：

获取待检测图像；

基于指尖检测模型从所述待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，所述指尖检测模型由权利要求1或2所述的方法生成；

从多个所述待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

根据所述输出指尖特征确定所述待检测图像中的指尖位置。

6.根据权利要求5所述的方法，其中，所述输出指尖特征包括输出热图和输出偏移矢量，根据所述输出指尖特征确定所述待检测图像中的指尖位置，包括：

解析所述输出热图的峰值位置，得到经所述指尖检测模型下采样后的指尖预测位置；

解析所述指尖预测位置的矢量值，得到指尖预测位置矢量；

根据所述指尖预测位置矢量和所述输出偏移矢量，确定所述待检测图像中的指尖位置。

7.一种检测指尖位置的方法，包括：

获取待检测图像；

基于指尖检测模型从所述待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，所述指尖检测模型由权利要求3或4所述的方法生成；

从多个所述待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

根据所述输出关键点特征确定所述待检测图像中的指尖位置。

8.一种指尖检测模型的生成装置，包括：

样本图像获取模块，用于获取样本图像以及与所述样本图像对应的多个分辨率下的标注特征，其中，所述样本图像中包括指尖，所述标注特征包括指尖标注特征；

样本特征提取模块，用于基于机器学习模型，对所述样本图像进行不同倍数的下采样，得到多个不同分辨率和不同语义层次的第一语义特征；对所述第一语义特征中的高语义层特征进行相应倍数的上采样，得到多个不同分辨率的第二语义特征，所述第二语义特征均为高语义层特征；对于相同分辨率，融合具有不同语义层次的第一语义特征和第二语义特征，得到多个分辨率下的样本特征，所述样本特征包括对指尖位置预测的指尖样本特征；

训练模块，用于对于每个分辨率，根据所述分辨率下的指尖标注特征和指尖样本特征，训练所述机器学习模型，以生成指尖检测模型，所述指尖检测模型用于检测待检测图像中的指尖位置。

9.根据权利要求8所述的生成装置，其中，所述指尖标注特征包括第一标注热图和第一标注偏移矢量，所述指尖样本特征包括第一样本热图和第一样本偏移矢量；所述训练模块包括：

第一损失函数生成子模块，用于根据所述第一标注热图和所述第一样本热图生成第一损失函数；

第二损失函数生成子模块，用于根据所述第一标注偏移矢量和所述第一样本偏移矢量生成第二损失函数；

调整子模块，用于根据所述第一损失函数和所述第二损失函数，调整所述机器学习模型的参数，以生成所述指尖检测模型。

10.根据权利要求8所述的生成装置，其中，所述样本图像中还包括手部上的非指尖关键点，所述标注特征还包括非指尖关键点标注特征，所述样本特征还包括对非指尖关键点的位置预测的非指尖关键点样本特征；所述训练模块还用于：

11.根据权利要求10所述的生成装置，其中，所述指尖标注特征包括第一标注热图和第一标注偏移矢量，所述指尖样本特征包括第一样本热图和第一样本偏移矢量；所述非指尖关键点标注特征包括第二标注热图和第二标注偏移矢量，所述非指尖关键点样本特征包括第二样本热图和第二样本偏移矢量；所述训练模块还用于：

12.一种检测指尖位置的装置，包括：

第一待检测图像获取模块，用于获取待检测图像；

待选指尖特征提取模块，用于基于指尖检测模型从所述待检测图像提取出多个分辨率下对指尖位置预测的待选指尖特征，其中，所述指尖检测模型由权利要求8或9所述的装置生成；

输出指尖特征确定模块，用于从多个所述待选指尖特征中，确定出符合预设分辨率标准的输出指尖特征；

第一指尖位置确定模块，用于根据所述输出指尖特征确定所述待检测图像中的指尖位置。

13.根据权利要求12所述的装置，其中，所述输出指尖特征包括输出热图和输出偏移矢量，所述第一指尖位置确定模块包括：

第一解析模块，用于解析所述输出热图的峰值位置，得到经所述指尖检测模型下采样后的指尖预测位置；

第二解析模块，用于解析所述指尖预测位置的矢量值，得到指尖预测位置矢量；

指尖位置确定子模块，用于根据所述指尖预测位置矢量和所述输出偏移矢量，确定所述待检测图像中的指尖位置。

14.一种检测指尖位置的装置，包括：

第二待检测图像获取模块，获取待检测图像；

待选关键点特征提取模块，用于基于指尖检测模型从所述待检测图像提取出多个分辨率下对手部关键点预测的待选关键点特征，其中，所述指尖检测模型由权利要求10或11所述的装置生成；

输出关键点特征确定模块，用于从多个所述待选关键点特征中，确定出符合预设分辨率标准的输出关键点特征；

第二指尖位置确定模块，用于根据所述输出关键点特征确定所述待检测图像中的指尖位置。

15. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。