CN110163048A

CN110163048A - 手部关键点的识别模型训练方法、识别方法及设备

Info

Publication number: CN110163048A
Application number: CN201810752953.1A
Authority: CN
Inventors: 易阳; 赵世杰; 李峰; 左小祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2019-08-23
Anticipated expiration: 2038-07-10
Also published as: JP7130057B2; EP3742332B1; WO2020010979A1; US11989350B2; US20200387698A1; EP3742332A4; EP3742332A1; CN110163048B; JP2021518022A

Abstract

本申请公开了一种手部关键点的识别模型训练方法、识别方法及设备，属于手势识别领域。所述方法包括：通过Cycle‑GAN模型，将样本虚拟图像转化为仿真图像，样本虚拟图像是三维建模生成的图像，且样本虚拟图像包含手部关键点对应的关键点坐标，仿真图像用于模仿真实场景下采集的图像；提取仿真图像中的手部图像；根据仿真图像中的手部图像以及关键点坐标，训练手部关键点识别模型，手部关键点识别模型用于根据输入的真实图像输出所述真实图像中手部的手部关键点坐标。本申请实施例中，训练样本更加趋近于采集的真实图像，后续利用该手部关键点识别模型对真实图像进行手势识别的准确率更高。

Description

手部关键点的识别模型训练方法、识别方法及设备

技术领域

本申请实施例涉及手势识别技术领域，特别涉及一种手部关键点的识别模型训练方法、识别方法及设备。

背景技术

随着人工智能技术的不断成熟，越来越多的应用场景开始支持人机交互，而手势交互则是一种常见的人机交互方式。

手势交互的关键在于手部关键点识别。在一种手部关键点识别方式中，开发人员首先通过计算机构建手部的虚拟三维模型，并将虚拟三维模型的虚拟图像以及对应手部关键点的三维坐标数据作为训练样本，训练手部关键点识别模型。后续进行手势识别时，将通过摄像头采集的包含手势的真实图像输入手部关键点识别模型后，即可得到真实图像中各个手部关键点的三维坐标，从而识别出其中的手势。

然而，采用上述方法进行手势识别时，由于虚拟图像与真实图像的细节存在较大差异，比如，虚拟图像与真实图像中的手部皮肤以及背景存在差异，因此利用基于虚拟图像训练出的识别模型进行手势识别的准确率较低，影响手势交互的准确性。

发明内容

本申请实施例提供了一种手部关键点的识别模型训练方法、识别方法及设备，可以解决相关技术中基于虚拟图像训练出的识别模型进行手势识别的准确率较低，影响手势交互的准确性的问题。所述技术方案如下：

一方面，提供了一种手部关键点的识别模型训练方法，所述方法包括：

通过循环生成对抗网络(Cycle Generative Adversarial Networks，Cycle-GAN)模型，将样本虚拟图像转化为仿真图像，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标，所述仿真图像用于模仿真实场景下采集的图像；

提取所述仿真图像中的手部图像；

根据所述仿真图像中的手部图像以及所述关键点坐标，训练手部关键点识别模型，所述手部关键点识别模型用于根据输入的真实图像输出所述真实图像中手部的手部关键点坐标。

另一方面，提供了一种手部关键点的识别方法，所述方法包括：

采集真实图像，所述真实图像中包含手部图像；

提取所述真实图像中的所述手部图像；

将所述手部图像输入手部关键点识别模型，得到手部关键点坐标，所述手部关键点识别模型根据仿真图像以及所述仿真图像中手部图像的三维标注数据训练得到，所述仿真图像由Cycle-GAN模型根据样本虚拟图像生成，所述Cycle-GAN模型根据样本真实图像和所述样本虚拟图像训练生成，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标。

另一方面，提供了一种手部关键点识别的模型训练装置，所述装置包括：

转化模块，用于通过Cycle-GAN模型，将样本虚拟图像转化为仿真图像，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标，所述仿真图像用于模仿真实场景下采集的图像；

第一提取模块，用于提取所述仿真图像中的手部图像；

第一训练模块，用于根据所述仿真图像中的手部图像以及所述关键点坐标，训练手部关键点识别模型，所述手部关键点识别模型用于根据输入的真实图像输出所述真实图像中手部的手部关键点坐标。

另一方面，提供了一种手部关键点的识别装置，所述装置包括：

采集模块，用于采集真实图像，所述真实图像中包含手部图像；

第二提取模块，用于提取所述真实图像中的所述手部图像；

识别模块，用于将所述手部图像输入手部关键点识别模型，得到手部关键点坐标，所述手部关键点识别模型根据仿真图像以及所述仿真图像中手部图像的三维标注数据训练得到，所述仿真图像由Cycle-GAN模型根据样本虚拟图像生成，所述Cycle-GAN模型根据样本真实图像和所述样本虚拟图像训练生成，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标。

另一方面，提供了一种手部关键点的识别模型训练设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的手部关键点的识别模型训练方法。

另一方面，提供了一种手部关键点的识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的手部关键点的识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的手部关键点的识别模型训练方法，或，实现如上述方面所述的手部关键点的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过利用Cycle-GAN模型将样本虚拟图像转化为仿真图像，从而根据仿真图像中的手部图像以及关键点坐标训练手部关键点识别模型；由于经过Cycle-GAN模型转化得到的仿真图像能够模拟出样本真实图像的风格，即训练样本更加趋近于采集的真实图像，因此后续利用该手部关键点识别模型对真实图像进行手势识别的准确率更高；并且，基于携带有关键点坐标的样本虚拟图像训练手部关键点识别模型，避免了人工标注关键点坐标，进一步提高了模型训练效率及准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的实施环境的示意图；

图2是相关技术中根据虚拟图像训练模型的原理示意图；

图3是本申请实施例提供的手势关键点识别模型训练过程的原理示意图；

图4示出了本申请一个实施例提供的识别模型训练方法的流程图；

图5示出了本申请另一个实施例提供的识别模型训练方法的流程图；

图6是Cycle-GAN模型中生成器的结构示意图；

图7是Cycle-GAN模型中判别器的结构示意图；

图8是Cycle-GAN模型的结构示意图；

图9是利用手势分割神经网络确定手部置信区域的原理示意图；

图10是利用手势分割神经网络确定手部置信区域过程的方法流程图；

图11是二值化处理的实施示意图；

图12是手部关键点识别模型的结构示意图；

图13是训练手部关键点识别模型的方法流程图；

图14示出了本申请一个实施例提供的手部关键点的识别方法的流程图；

图15是不同应用场景下手部关键点识别结果用途的示意图；

图16示出了本申请一个实施例提供的识别模型训练装置的框图；

图17示出了本申请一个实施例提供的识别装置的框图；

图18示出了本申请一个实施例提供的识别模型训练设备的结构示意图；

图19示出了本申请一个示例性实施例提供的识别设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

Cycle-GAN模型：一种用于将数据从原始数据域转化到目标数据域的深度学习模型，可以被用于对图像进行风格转换。比如，Cycle-GAN模型可以用于根据输入图片输出卡通图片(图片卡通化)，或者，用于将输入图片中的A物体转化为B物体(比如将猫转化成狗)。本申请实施例中的Cycle-GAN模型用于将虚拟图像转化为真实图像，或者，将真实图像转化为虚拟图像。其中，该虚拟图像由计算机建模生成，且携带有关键点坐标。

Cycle-GAN模型由生成器(Generator)和判别器(Discriminator)构成，其中，生成器用于对图像进行风格转换，判别器用于判别原始图像和生成器输出的图像。

卷积(convolution)层：卷积神经网络中用于提取特征的层，用于对高维数据进行低维特征提取，分为卷积操作、激活(activation)操作、池化(pooling)操作三部分。其中，进行卷积操作时，使用预先经过训练学习得到的卷积核进行特征提取，进行激活操作时，使用激活函数(activation function)对卷积得到的特征图进行激活处理，常用的激活函数包括线性整流(Rectified Linear Unit，ReLU)函数、S型(Sigmoid)函数和双曲正切(Tanh)函数。经过卷积激活层之后，通过池化操作降低卷积激活输出的特征向量(即缩小特征图的尺寸)，同时改善过拟合问题。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和随机池化(stochastic-pooling)。

反卷积(deconvolution)层：与卷积层的作用相反，反卷积层用于将低维特征映射成高维输出。本申请实施例中，反卷积层是用于对特征向量进行上采样的层，即用于增大特征图的尺寸。

拼接：本申请实施例中，拼接是指将两张同尺寸的多通道特征图进行融合过程，其中，拼接后特征图的通道数等于拼接两张特征图的通道数之和。

残差层：一种通过残差网络(Residual Network，ResNet)结构进行特征提取的层结构，本申请实施例中，残差层用于对提取出的手部图像进行特征提取，确定手部图像中的关键点。

全连接层：又称为内积层。在卷积神经网络中，经过特征提取后，图片被映射到隐藏层的特征空间中，全连接层则是用于将学习训练得到的特征映射到样本分类空间中。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括至少一个终端110和服务器120。

终端110是具有图像采集功能的电子设备，该电子设备可以为配置有摄像头的智能手机、平板电脑、体感游戏设备或个人计算机等等。比如，如图1所示，当终端110为配置有摄像头111的手机时，该摄像头111可以为前置摄像头(位于手机屏幕一侧)或后置摄像头(位于手机屏幕背对侧)。

在一种可能的使用场景下，当启动预设应用程序(支持手势交互功能)时，终端110即通过摄像头采集红绿蓝(Red Green Blue，RGB)图片，或，通过摄像头采集由连续RGB图片帧构成的视频。比如，当启动支持手势交互的体感游戏时，终端110即启用摄像头进行图像采集。

终端110与服务器120之间通过有线或无线网络相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中，服务器120是终端110中预设应用程序的后台服务器。

在一种可能的应用场景下，如图1所示，终端110通过摄像头111采集到RGB图片后，即将RGB图片发送至服务器120。服务器120通过预先训练的手势分割神经网络121，提取RGB图片中的手部图像，然后通过预先训练的手部关键点识别模型122，识别手部图像中手部关键点的关键点坐标，从而根据关键点坐标确定手部图像指示的手势，进而将手势识别结果反馈给终端110。

在另一种可能的应用场景下，当终端110具备手势识别功能时，对于采集到的RGB图片，终端110即在本地进行手部图像提取和手部关键点识别，而无需借助服务器120。

可选的，终端110或服务器120通过神经网络芯片实现手势识别功能。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请各个实施例提供的手部关键点的识别模型训练方法可以由模型训练设备执行，该模型训练设备可以为具有较强计算能力的计算机或服务器；本申请各个实施例提供的手部关键点的识别方法可以由识别设备执行，该识别设备可以为图1中的终端110或服务器120。

基于RGB图像的三维手势识别是指确定二维RGB图像中的手部关键点，并进一步获取各个手部关键点的三维坐标。相关技术中，通常采用基于深度神经网络的手部关键点识别模型进行手部关键点识别。然而，在手部关键点识别模型训练阶段，由于需要大量携带标注信息(手部关键点的坐标)的RGB图像作为训练样本，而在真实场景下采集手部关键点坐标需要使用大量传感设备，因此前期训练样本的采集难度较高，进而导致手部关键点识别模型的训练难度较高。

为了降低手部关键点识别模型的训练难度，提出了一种手部关键点识别模型训练方法。如图2所示，在该训练方法中，首先借助计算机的图形渲染功能自动建模手部三维模型，从而将手部三维模型对应的虚拟图像21以及标注信息22(建模时自动生成的坐标数据)作为训练样本，分别训练手势分割模型23(用于识别图像中的手部区域)、2D关键点识别模型24(用于得到图像中二维手部关键点的热图)、3D关键点识别模型25(用于得到图像中三维手部关键点的三维坐标)。

采用上述方法，由于标注信息在建模阶段由计算机自动生成，因此能够降低训练样本的获取难度，从而提高模型的训练效率。但是由于虚拟图像与真实场景下采集的真实图像之间存在数据分布鸿沟(细节表现方面存在较大差异)，比如，真实图像与虚拟图像中的手部皮肤细节以及背景细节等存在较大差异，因此利用真实图像26对模型(虚拟图像训练得到)进行测试的测试效果较差；并且，由于实际应用场景下，该模型的输入均为真实图像，导致采用该模型进行手部关键点识别的准确率较低。

为了解决数据分布鸿沟带来的问题，如图3所示，本申请实施例提供的手势关键点识别模型训练方法中，预先根据虚拟图像21和真实图像26训练Cycle-GAN模型27，并利用Cycle-GAN模型27将虚拟图像21转化为仿真图像28，从而将仿真图像28以及对应的标注信息22作为训练样本，训练手势分割模型23；并且，通过将2D关键点识别模型和3D关键点识别模型耦合成2D-3D关键点耦合识别模型29，提高模型输出的准确率。借助Cycle-GAN模型27将虚拟场景域的数据迁移至真实场景数据域，从而缓解数据分布鸿沟的问题，从而提高模型在真实图像下的测试结果，并提高了实际应用场景下手部关键点识别的准确率。

本申请实施例中提供的手部关键点识别方法可以用于手语识别场景、手势交互场景、手部特效场景等其他涉及手势识别的场景。下面结合不同的应用场景进行说明。

手语识别场景

当手部关键点识别方法应用于手语识别场景时，可以将手部关键点识别方法实现成为手语识别软件，并将手语识别软件安装在终端中。终端启动手语识别软件后，终端即通过摄像头采集手语图像，并对手语图像所表达的含义进行识别，以文字的形式展示识别结果，方便不会手语的用于与残障人士进行沟通。

手势交互场景

当手部关键点识别方法应用于手势交互场景时，可以将手部关键点识别方法实现成为智能家居控制软件并安装在支持手势控制的智能家居设备。智能家居设备运行过程中，即通过摄像头采集包含用户手势的图像，并对其中的手势进行识别，从而确定用户手势对应的控制指令，进而根据控制指令执行相应的操作，方便用户通过手势快速控制智能家居设备。

手部特效场景

当手部关键点识别方法应用于手部特效场景时，可以将手部关键点识别方法实现成为图像处理软件并安装在终端中。终端启用该图像处理软件后，通过摄像头采集用于手部图像，并根据用户选择的手部特效(比如鹰爪、熊掌等等)，将手部特效叠加在相应的手部关键点，实现手部特效实时显示。

请参考图4，其示出了本申请一个实施例提供的识别模型训练方法的流程图。本实施例以该手部关键点的识别模型训练方法应用于模型训练设备来举例说明，该方法可以包括以下几个步骤：

步骤401，通过Cycle-GAN模型，将样本虚拟图像转化为仿真图像，样本虚拟图像是三维建模生成的图像，且样本虚拟图像包含手部关键点对应的关键点坐标，仿真图像用于模仿真实场景下采集的图像。

可选的，在使用Cycle-GAN模型进行图像转化前，模型训练设备根据样本真实图像和样本虚拟图像训练Cycle-GAN模型。

其中，样本真实图像是在真实场景下采集的包含手部图像的RGB图像；样本虚拟图像是虚拟环境中三维手部模型的RGB图像，该三维手部模型由计算机通过三维建模在虚拟环境中构建，且样本虚拟图像携带有三维手部模型中手部关键点的关键点坐标(建模时自动生成)。训练得到的Cycle-GAN模型用于将样本虚拟图像转化为仿真图像，或者，用于将真实图像转化为仿虚拟图像。

可选的，该手部关键点包括指尖、远端指关节(靠近指尖的指关节)、近端指关节(靠近手掌的指关节)、掌关节等21个关键点；关键点坐标可以为三维坐标，和/或，二维坐标。

由于训练Cycle-GAN模型时无需使用一一对应的图像对，即样本真实图像与样本虚拟图像无需一一对应，因此在一种可能的实施方式中，模型训练设备采集现实场景中包含手势的图像作为样本真实图像集，采用已有的携带标注信息的虚拟图像作为样本虚拟图像集。

为了缓解真实图像与虚拟图像之间数据分布鸿沟的问题，模型训练设备将样本虚拟图像输入Cycle-GAN模型，从而得到Cycle-GAN模型输出的仿真图像，实现数据由虚拟场景下的数据域向真实场景下的数据域迁移。

其中，样本虚拟图像经过风格转化得到仿真图像后，其对应的关键点坐标仍旧保留。

步骤402，提取仿真图像中的手部图像。

由于样本虚拟图像中除了包含手部图像外，还可能包含躯干图像、背景图像等干扰因素，为了提高构建模型的质量，模型训练设备进一步提取仿真图像中的手部图像。

在一种可能的实施方式中，模型训练设备预先训练手势分割神经网络，并利用该手势分割神经网络提取仿真图像中的手部图像。其中，该手势分割神经网络可以根据若干张存储有标签信息(标注手部区域和非手部区域)的真实图像训练生成。

步骤403，根据仿真图像中的手部图像以及关键点坐标，训练手部关键点识别模型，手部关键点识别模型用于根据输入的真实图像输出真实图像中手部的手部关键点坐标。

进一步的，模型训练设备将提取到的手部图像以及对应的关键点坐标作为训练样本，训练手部关键点识别模型。由于作为训练样本的仿真图像与真实图像的风格相同(属于相同数据域)，因此利用真实图像对手部关键点识别模型进行测试的准确性更高，且利用该手部关键点识别模型识别真实图像中的手势的准确性更高。

在一种可能的实施方式中，该手部关键点识别模型包括二维识别分支和三维识别分支，采集到的真实图像输入手部关键点识别模型后，即得到二维识别分支输出的二维关键点热图(热图中响应高的点即为二维关键点)，以及三维识别分支输出的三维关键点坐标。

综上所述，本实施例中，通过利用Cycle-GAN模型将样本虚拟图像转化为仿真图像，从而根据仿真图像中的手部图像以及关键点坐标训练手部关键点识别模型；由于经过Cycle-GAN模型转化得到的仿真图像能够模拟出样本真实图像的风格，即训练样本更加趋近于采集的真实图像，因此后续利用该手部关键点识别模型对真实图像进行手势识别的准确率更高；并且，基于携带有关键点坐标的样本虚拟图像训练手部关键点识别模型，避免了人工标注关键点坐标，进一步提高了模型训练效率及准确性。

训练Cycle-GAN模型的关键在于生成器和判别器的训练，本申请实施例中的生成器用于对图像进行风格转换，判别器则用于判别原始图像和生成器输出的图像，而训练Cycle-GAN模型即为生成器与判别器相互对抗的过程，使得生成器输出图像的风格与目标图像风格一致(输出逼近目标分布)，判别器处于随机判别状态(对原始图像和生成器输出图像的判别概率均等)。下面采用示意性的实施例对Cycle-GAN模型的训练过程进行说明。

请参考图5，其示出了本申请另一个实施例提供的识别模型训练方法的流程图。本实施例以该手部关键点的识别模型训练方法应用于模型训练设备来举例说明，该方法可以包括以下几个步骤：

步骤501，构建第一生成器和第二生成器，第一生成器用于生成仿真图像，第二生成器用于生成仿虚拟图像，仿样本虚拟图像用于模仿样本虚拟图像的风格。

Cycle-GAN模型的生成训练部分由生成器完成。本申请实施例中的Cycle-GAN模型用于对图像进行风格转换，其中包括两个生成器，分别是用于根据输入图像生成仿真图像的第一生成器，以及用于根据输入图像生成仿虚拟图像的第二生成器。第一生成器的输入图像为(原始)虚拟图像或者第二生成器输出的仿虚拟图像，第二生成器的输入图像为(原始)真实图像或第一生成器输出的仿真图像。

在一种可能的实施方式中，如图6所示，生成器可以由三部分组成，分别为编码器61、转换器62个解码器63。

其中，编码器61包含若干层卷积层611(图中以3层卷积层为例)，分别用于对输入图像进行卷积处理，从而提取出输入图像的特征。比如，卷积层611中包含若干个步长为2的卷积核。可选的，卷积层611后还可以添加激活层(ReLU)或批归一化(BatchNormalization，BN)层，本申请实施例对此不做限定。

经过编码器61后，输入图像被压缩成若干个输入图像所属的数据域特征向量，后续即通过转换器62将该特征向量转化为输出图像所属数据域的特征向量。比如，当输入图像的尺寸为256×256×3(宽×高×通道数)，经过编码器61后得到尺寸为64×64×256的特征图。

转换器62是由若干个(图中以3个残差块为例)残差块621构成的残差网络。可选的，每个残差块621由至少两个卷积层构成，且残差块621的部分输入直接添加到输出，即残差块621的输出其卷积层的输出和输入构成，这样可以确保先前网络层的输入直接作用于后面的网络层，使得相应输出与原始输入的偏差缩小，使得原始图像的特征被保留在输出中且输出结果中。

本申请实施例中，转换器62用于对编码器61输出的特征向量进行数据域转换。其中，转换器62的输出尺寸与输入尺寸相同。比如，转换器62对编码器61输出的64×64×256的特征图(虚拟图像的特征)进行转换，输出64×64×256的特征图(真实图像的特征)，实现虚拟图像数据域到真实图像数据域的转换。

与编码过程相反，解码过程用于从特征向量中还原出低级特征，最终得到风格转换后的图像。如图6所示，解码器63包含若干层反卷积层631(图中以3层反卷积层为例)，分别用于对转换器62输出的特征向量进行反卷积处理，还原出低级特征。比如，反卷积层631中包含若干个步长为1/2的卷积核。

其中，解码器63最终输出图像的尺寸与输入图像的尺寸相同。比如，当输入图像的尺寸为256×256×3时，解码器63最终输出尺寸为256×256×3且经过风格转换的图像。

步骤502，构建第一判别器和第二判别器，第一判别器用于判别样本虚拟图像和仿虚拟图像，第二判别器用于判别样本真实图像和仿真图像。

Cycle-GAN模型的对抗训练部分由判别器完成。本申请实施例中的Cycle-GAN模型包括两个判别器，分别是用于判别样本虚拟图像和仿虚拟图像的第一判别器，以及用于判别样本真实图像和仿真图像的第二判别器。其中，仿虚拟图像由第二生成器根据样本图像生成，仿真图像由第一生成器根据样本虚拟图像生成。

判别器采用卷积神经网络结构，其中包含若干个用于提取图像特征的卷积层以及一个用于产生一维输出的卷积层。如图7所示，判别器中的卷积层71、卷积层72、卷积层73和卷积层74用于依次对输入图像进行特征提取，得到输入图像的特征图75，卷积层76则用于根据特征图75产生一维输出，从而根据一维输出确定输入图像属于真实图像还是仿真图像，或，属于虚拟图像还是仿虚拟图像。

在一种可能的实施方式中，本申请实施例中的判别器采用0/1判别。比如，当判别器的输出为1时，指示输入图像为真实图像，当判别器的输出为0时，指示输入图像为仿真图像。

在另一种可能的实施方式中，本申请实施例中的判别器并非采用0/1判别，而是将输入图像划分为若干个相同尺寸的补丁(Patch)块，并基于Patch块进行判别。相较于0/1判别，采用基于Patch块的判别方式，能够减少训练的参数量，从而提高训练效率。

步骤503，根据第一生成器、第二生成器、第一判别器和第二判别器构建Cycle-GAN模型。

进一步的，根据上述步骤中构建得到的生成器和判别器，模型训练设备构建Cycle-GAN模型。

示意性的，图8所示的Cycle-GAN模型中包含第一生成器81、第二生成器82、第一判别器83和第二判别器84

步骤504，根据样本真实图像和样本虚拟图像计算Cycle-GAN模型的损失，Cycle-GAN模型的损失包括生成器损失、判别器损失和循环损失。

在训练构建得到的Cycle-GAN模型时，模型训练设备将样本虚拟图像和样本真实图像作为相应生成器的输入图像，由生成器对输入图像进行风格转换，由判别器对生成器输出的图像以及原始输入图像进行判别，并计算生成器损失、判别器损失和循环损失，以便后续根据上述损失，并通过反向传播算法进行模型训练。其中，生成器损失是生成器转换图像时产生的损失，判别器损失用于指示判别器判别结果与预计结果之间误差，循环损失(或称为循环一致性损失(Cycle Consistency Loss))用于指示输入图像与经过两个生成器转换后输出图像之间的重构误差(Reconstruc)。

其中，输入的样本真实图像和样本虚拟图像并不需要成对，即样本真实图像中的手势与样本虚拟图像中的手势无需保持一致。

在训练图8所示Cycle-GAN模型中的生成器时，模型训练设备将样本虚拟图像A输入到第一生成器81中，由第一生成器81将样本虚拟图像A转换为仿真图像B1。进一步的，第一生成器81将转换得到的仿真图像B1输入到第二生成器82中，由第二生成器82将仿真图像B1转换为仿虚拟图像A2，并通过计算样本虚拟图像A与仿虚拟图像A2之间的重构误差RA确定循环损失，重构误差RA即用于指示样本虚拟图像A经过两个生成器风格转换后，与原始样本虚拟图像A之间的图像差异，其中，重构误差RA越小，表明样本虚拟图像A与仿虚拟图像A2越相似。

模型训练设备将样本真实图像B输入到第二生成器82中，由第二生成器82将样本真实图像B转换为仿虚拟图像A1。进一步的，第二生成器82将转换得到的仿虚拟图像A1输入到第一生成器81中，由第一生成器81将仿虚拟图像A1转换为仿真图像B2，并通过计算样本真实图像B与仿真图像B2之间的重构误差RB确定循环损失，重构误差RB即用于指示样本真实图像B经过两个生成器风格转换后，与原始样本真实图像B之间的图像差异，其中，重构误差RB越小，表明样本真实图像B与仿真图像B2越相似。

在训练图8所示Cycle-GAN模型中的判别器时，模型训练设备将样本虚拟图像A和仿虚拟图像A1输入第一判别器83，由第一判别器83进行判别，并根据实际判别结果和目标判别结果计算第一判别器83的判别器损失以及第二生成器82的生成器损失；类似的，模型训练设备将样本真实图像B和仿真图像B1输入第二判别器84，由第二判别器84进行判别，并根据实际判别结果和目标判别结果计算第二判别器84的判别器损失以及第一生成器81的生成器损失。

可选的，模型训练设备根据生成器损失、判别器损失和循环损失构建Cycle-GAN模型的损失函数，其中，损失函数中，循环损失的乘法因子(权重)大于判别器损失的乘法因子。

步骤505，根据Cycle-GAN模型的损失反向训练Cycle-GAN模型。

可选的，模型训练设备根据Cycle-GAN模型的生成器损失、判别器损失和循环损失，采用反向传播算法训练Cycle-GAN模型，本申请实施例并不对根据损失训练Cycle-GAN模型的具体方式进行实现。

可选的，最终训练得到的Cycle-GAN模型的损失函数最小。

最终训练得到的Cycle-GAN模型中，生成器与判别器之间实现了纳什均衡(Nashequilibrium)，即成器输出图像的风格与目标图像风格一致(输出逼近目标分布)，判别器处于随机判别状态(对原始图像和生成器输出图像的判别概率均等)。

通过上述步骤501至505，模型训练设备根据样本虚拟图像和样本真实图像训练得到用于风格转换的Cycle-GAN模型，后续进行手部关键点识别模型训练时，模型训练设备即使用该模型对携带标注信息的样本虚拟图像进行风格转换。

步骤506，通过Cycle-GAN模型中的第一生成器，将样本虚拟图像转化为仿真图像。

为了使训练样本更加接近真实场景下采集到的真实图像，模型训练设备将样本虚拟图像输入Cycle-GAN模型的第一生成器，由第一生成器将样本虚拟图像转化为仿真图像。

由于仿真图像中手部可能只占较少的空间，如果直接对仿真图像缩放后进行训练或者测试，将导致手部图像的面积被进一步压缩。除此之外，手部关键点分布密集，且存在自遮挡等问题，在分辨率较小、图像模糊的情况下识别效果会显著降低。为了缓解这些问题，本申请实施例中，模型训练设备首先先定位手部置信区域，再根据手部置信区域将手部及其周围少部分区域裁剪出来，并缩放作为下一级的输入。如图5所示，模型训练设备进一步通过下述步骤507至508从仿真图像中提取手部图像。

步骤507，将仿真图像输入手势分割神经网络，输出手部置信区域，手势分割神经网络根据标注有手部区域的图像训练得到。

在一种可能的实施方式中，手势分割神经网络是采用U型网络(U-NET)结构的卷积神经网络(Convolutional Neural Networks，CNN)，包括n层卷积层和n层反卷积层。其中，n层卷积层用于对图像进行不同层次的特征提取，n层反卷积层用于对提取到的特征进行解码输出。示意性的，如图9所示，该手势分割神经网络包括3层卷积层和3层反卷积层。

可选的，如图10所示，通过手势分割神经网络确定手部置信区域包括如下步骤。

步骤507A，通过n层卷积层对仿真图像进行处理，得到仿真图像对应的中间特征图。

模型训练设备将仿真图像输入手势神经分割网络，由n层卷积层依次对仿真图像进行卷积处理，从而提取出仿真图像中的特征，得到仿真图像对应的中间特征图。其中，对于第一层卷积层，其输入为仿真图像，而对于第i层卷积层，其输入则为第i-1层卷积层输出的特征图。

可选的，每层卷积层除了使用卷积核对输入图像或特征图(上一层卷积层输出)进行卷积处理外，还对进行卷积结果进行激活以及池化处理。

其中，可以使用ReLU函数对卷积结果进行激活处理。本申请实施例并不对使用的具体激活函数进行限定。

经过激活处理后，卷积层即对激活结果(特征图)进行池化处理，并将池化处理后的特征图输入下一层卷积层。其中，池化处理用于缩小特征图的尺寸，并保留特征图中的重要信息。可选的，各级池化层对输入的特征图进行最大池化处理。比如，当以2×2块，2为步长对特征图进行池化处理时，即提取特征图中2×2块中的最大值，将特征图的尺寸缩小至四分之一。

可选的，还可以采用平均池化或随机池化进行池化处理，本实施例并不对此构成限定。

示意性的，如图9所示，仿真图像91输入第一层卷积层后，在第一层卷积层经过卷积-池化处理，得到特征图92，并输入第二层卷积层；特征图92在第二层卷积层92经过卷积-池化处理后，得到特征图93，并输入第三层卷积层；特征图93在第三层卷积层经过卷积-池化处理后，进一步经过卷积操作后得到生成特征图94，并输入n层反卷积层。

步骤507B，通过n层反卷积层对中间特征图进行处理，得到仿真图像对应的目标特征图。

手势分割神经网络进一步通过n层反卷积层，对中间特征图进行反卷积处理，最终得到仿真图像对应的目标特征图。其中，目标特征图的尺寸等于仿真图像的尺寸。

由于底层特征图具有更好的空间信息，而高层特征图具有更好的语义信息，为了使特征图能够更好的体现特征，在一种可能的实施方式中，在对中间特征图进行反卷积操作过程中，将高层特征图与先前生成的底层特征图进行拼接融合。相应的，本步骤可以包括如下步骤。

一、对第m层反卷积层输出的特征图与第n-m层卷积层输出的特征图进行拼接，1≤m≤n-1。

对于第m层反卷积层输出的特征图，模型训练设备将该特征图与第n-m层卷积层输出的特征图进行通道拼接，从而得到拼接后的特征图，其中，拼接后的特征图的通道数等于拼接前特征图的通道数之和。

由于第n-m层卷积层输出的特征图的尺寸大于第m层反卷积层输出的特征图的尺寸，因此，第m层反卷积层输出的特征图还需要经过上采样处理，从而增加特征图的尺寸。

可选的，在拼接前，使用1×1的卷积核对特征图进一步卷积处理，从而降低特征图的维度，减少拼接后特征图的通道数，从而降低计算量。除了使用1×1的卷积核进行卷积处理外，还可以使用3×3的卷积核对特征图进一步卷积处理，从而扩大扩大特征图的感受野，以消除上采样过程中边缘不准确的影响。

二、通过第m+1层反卷积层对拼接后的特征图进行处理。

进一步的，拼接后的特征图被输入第m+1层反卷积层，由第m+1层反卷积层对其进行反卷积激活处理。

示意性的，如图9所示，特征图94在第一层反卷积层经过反卷积-上采样处理后，与第二层卷积层生成的特征图92进行拼接，生成特征图95，并输入第二层反卷积层；特征图95在第二层反卷积层经过反卷积-上采样处理后，与第一层卷积层生成的特征图91进行拼接，生成特征图96。

上述实施例仅以包含3层卷积层和3层反卷积层为例进行说明，并不对手势分割神经网络的结构构成限定。

步骤507C，根据目标特征图生成概率矩阵，概率矩阵用于表征仿真图像中各个像素点是手部的概率。

进一步的，根据输出的目标特征图，模型训练设备确定仿真图像中的手部置信区域。在一种可能的实施方式中，模型训练设备根据目标特征图进行像素级的识别和分类，确定各个像素点对应手部区域的概率，其中，像素点对应的概率越高，表明该像素点为手部区域的概率越高。

步骤507D，对概率矩阵进行二值化处理，输出手部区域对应的热图，热图用于指示仿真图像中的手部置信区域。

关于进行二值化处理的方式，在一种可能的实施方式中，模型训练设备比较概率矩阵中各个概率与概率阈值之间的大小关系，若概率大于概率阈值，则将该概率设置为1，若概率小于概率阈值，则将该概率设置为0。

示意性的，如图11所示，模型训练设备根据概率阈值0.6对概率矩阵1101进行二值化处理，将概率大于0.6的区域设置为1，将概率小于0.6的区域设置为0，得到热图1102，热图1102中，值为1的区域即为手部置信区域。

比如，如图9所示，经过二值化处理得到的热图97中，白色区域为手部置信区域，黑色区域为非手部置信区域。

步骤508，根据手部置信区域，从仿真图像中提取手部图像。

根据手势分割神经网络输出的手部置信区域的坐标，模型训练设备从仿真图像中提取手部图像。

上述步骤507D中，通过二值化处理得到手部置信区域时，可能会将部分手部区域的像素点错误划分为非手部区域，将部分非手部区域的像素点划分为手部区域，而这些错误划分通常位于实际手部区域的边缘位置，因此，在一种可能的实施方式中，模型训练设备根据手部置信区域的坐标，从仿真图像的XY平面上提取出尺寸略大于手部置信区域的手部图像。

可选的，模型训练设备对提取到的手部图像进行缩放处理，确保手部图像的尺寸与手部关键点识别模型的输入尺寸一致。

步骤509，构建手部关键点识别模型，手部关键点识别模型包括二维识别分支和三维识别分支。

利用图2中训练得到的模型进行手部关键点识别时，首先利用2D关键点识别模型23得到二维关键点热图，再将二维关键点输入3D关键点识别模型24，最终得到手部关键点的三维坐标。然而，采用这种方式，二维和三维手部关键点采用独立的模型进行识别，忽略了二维和三维感知的内在联系性，导致关键点识别的准确性较低。

而本申请实施例中，模型训练设备采用二维热图与三维关键点坐标相耦合的深度学习方法训练手部关键点识别模型，由于这种耦合方式更加接近人眼处理视觉图像的机制(三维预测深度立体信息，而位于观测表观信息)，因此利用训练得到的模型进行关键点识别的准确率更高。

可选的，模型训练设备构建的手部关键点识别模型包括二维识别分支和三维识别分支，其中，二维识别分支包括i层二维残差层和卷积层，三维识别分支包括i层三维残差层和全连接层，且前j层二维残差层与前j层三维残差层耦合，2≤j≤i-1，i和j为整数。可选的，

示意性的，如图12所示，模型训练设备构建的手部关键点识别模型中包含二维识别分支1210和三维识别分支1220。二维识别分支1210由5个二维残差块(每个二维残差块对应一层二维残差层)和一个全连接层1216构成，三维识别分支1220由5个三维残差块(每个三维残差块对应一层三维残差层)和一个卷积层1226构成，并且二维识别分支1210和三维识别分支1220的前3层相互耦合。可选的，二维识别分支和三维识别分支中的残差块可以采用常用的Residual残差块，且部分残差块中可以使用步长为2的卷积核进行特征图降维，以减小计算来那个并扩大特征图的感受野，本申请并对此次进行限定。

图12中，第一二维残差块1211和第一三维残差块1221的输入均为提取到的手部图像；第二二维残差块1212的输入为第一二维残差块1211以及第一三维残差块1221的输出；第二三维残差块1222的输入为第一二维残差块1211以及第一三维残差块1221的输出；第三二维残差块1213的输入为第二二维残差块1212以及第二三维残差块1222的输出；第三三维残差块1223的输入为第二二维残差块1212以及第二三维残差块1222的输出。

步骤510，根据手部图像和关键点坐标，计算手部关键点识别模型的二维识别损失和三维识别损失，二维识别损失为二维识别分支的识别损失，三维识别损失是三维识别分支的识别损失。

进一步的，模型训练设备将手部图像分别输入二维识别分支和三维识别分支，并根据关键点坐标和二维识别分支输出识别结果计算二维识别损失，根据关键点坐标和三维识别分支输出识别结果计算三维识别损失。在一种可能的实施方式中，如图13所示，本步骤包括如下步骤。

步骤510A，将手部图像分别输入二维识别分支和三维识别分支。

如图12所示，模型训练设备将手部图像分别输入第一二维残差块1211和第一三维残差块1221。

步骤510B，对第k层二维残差层输出的特征图和第k层三维残差层输出的特征图进行相加操作，1≤k≤j-1。

对于前j层相互耦合的二维残差层和三维残差层，模型训练设备对第k层二维残差层的特征图和第k层三维残差层输出的特征图进行相加操作，并将相加后得到的特征图作为第k+1层二维残差层和第k+1层三维残差层的输入。

其中，进行相加操作的特征图的维度相同，且相加前后特征图的维度保持一致。

示意性的，如图12所示，模型训练设备将第一二维残差块1211与第一三维残差块1221输出的特征图进行元素级相加操作；将第二二维残差块1212与第二三维残差块1222输出的特征图进行元素级相加操作。

步骤510C，将相加后的特征图输入第k+1层二维残差层和第k+1层三维残差层。

进一步的，模型训练设备将相加后的特征图分别输入第k+1层二维残差层和第k+1层三维残差层，由第k+1层二维残差层和第k+1层三维残差层对相加后的特征图进行残差处理。

对于前j-1层二维残差层与前j-1层三维残差层，模型训练设备重复执行上述步骤510B和510C，直至将相加后的特征图输入第j层二维残差层和第j层三维残差层。

步骤510D，通过第j+1至第i层二维残差层以及卷积层对第j层二维残差层输出的特征图进行处理，得到二维识别结果。

对于第j层二维残差层输出的特征图，模型训练设备依次通过第j+1至第i层二维残差层对特征图进行残差处理，进而通过卷积层对第i层二维残差层输出的特征图进行处理，得到二维识别结果，并执行下述步骤510F。

可选的，该二维识别结果是手部图像中二维关键点的热图，该热图的尺寸与手部图像一致，且热图中响应高的点即为手部关键点。

可选的，二维识别分支将二维识别结果指示的手部关键点叠加显示在原始仿真图像上，且用不同的颜色对不同手指对应的手部关键点进行标识。

步骤510E，通过第j+1至第i层三维残差层以及全连接层对第j层三维残差层输出的特征图进行处理，得到三维识别结果。

与二维识别相似的，对于第j层三维残差层输出的特征图，模型训练设备依次通过第j+1至第i层三维残差层对特征图进行残差处理，进而通过全连接层对第i层三维残差层输出的特征图进行处理，得到三维识别结果，并执行下述步骤510G。

可选的，该三维识别结果是手部图像中各个手部关键点的三维坐标，且该三维坐标为相对坐标，即以手部中预设关键点为坐标原点，计算其它关键点与预设关键点之间的归一化距离确定其它关键点的三维坐标。比如，当包含21个手部关键点时，三维识别分支中的全连接层的神经元数目即为21×3＝63个。

步骤510F，根据二维识别结果和关键点坐标计算二维识别损失。

模型训练设备根据二维识别结果所指示手部关键点的二维坐标，计算该二维坐标与关键点坐标(即真值(Ground Truth))之间的二维识别损失。可选的，关键点坐标为样本虚拟图像中手部关键点的二维坐标，且二维识别损失可以是采用欧式距离标识。比如，二维识别结果中关键点A的二维坐标为(100px，150px)，且关键点A的实际二维坐标为(90px，140px)时，关键点A的二维识别损失即为

步骤510G，根据三维识别结果和关键点坐标计算三维识别损失。

与计算二维识别损失相似的，模型训练设备根据三维识别结果所指示手部关键点的三维坐标，计算该三维坐标与关键点坐标(即真值(Ground Truth))之间的三维识别损失。可选的，关键点坐标为样本虚拟图像中手部关键点的三维坐标，且三维识别损失可以是采用欧式距离标识。比如，三维识别结果中关键点A的二维坐标为(100px，150px，100px)，且关键点A的实际三维坐标为(90px，140px，100px)时，关键点A的三维识别损失即为

步骤511，根据二维识别损失和三维识别损失反向训练手部关键点识别模型。

可选的，根据计算得到的二维识别损失，模型训练设备通过反向传播算法，对手部关键点识别模型的二维识别分支进行训练；根据计算得到的三维识别损失，模型训练设备通过反向传播算法，对手部关键点识别模型的三维识别分支进行训练。本申请实施例并不对根据识别损失训练手部关键点识别模型的具体方式进行限定。

本实施例中，通过构建包含两个生成器和两个判别器的Cycle-GAN模型，并根据生成器损失、判别器损失和循环损失反向训练Cycle-GAN模型，提高了生成得到的Cycle-GAN模型的质量。

本实施例中，在训练手部关键点识别模型时，通过将二维识别分支和三维识别分支进行耦合，使得训练出的手部关键点识别模型更加接近人眼处理视觉图像的机制，从而提高了手部关键点识别的准确率。

请参考图14，其示出了本申请一个实施例提供的识别方法的流程图。本实施例以该手部关键点的识别方法应用于手部关键点识别设备来举例说明，该方法可以包括以下几个步骤：

步骤1401，采集真实图像，真实图像中包含手部图像。

在一种可能的实施方式中，手部关键点识别设备是设置有摄像头的终端，终端即通过摄像头采集包含手部图像的真实图像。

步骤1402，提取真实图像中的手部图像。

在一种可能的实施方式中，手部关键点识别设备利用图5所示实施例中的手势分割神经网络，提取出真实图像中的手部图像。本实施例不再赘述提取手部图像的过程。

步骤1403，将手部图像输入手部关键点识别模型，得到手部关键点坐标，手部关键点识别模型根据仿真图像以及仿真图像中手部图像的三维标注数据训练得到，仿真图像由Cycle-GAN模型根据样本虚拟图像生成，Cycle-GAN模型根据样本真实图像和样本虚拟图像训练生成，样本虚拟图像是三维建模生成的图像，且样本虚拟图像包含手部关键点对应的关键点坐标。

手部关键点识别设备将提取到的手部图像输入上述实施例中训练出的手部关键点识别模型，从而得到模型输出的手部关键点坐标。其中，该手部关键点坐标为二维坐标和/或三维坐标。

在一种可能的实施方式中，如图15中的(a)所示，当手部关键点坐标为二维坐标时，手部关键点识别设备根据二维坐标将手部关键点叠加显示在真实图像上，并使用不同颜色对同一手指上的关键点进行标识；如图15中的(b)所示，当手部关键点坐标为三维坐标时，手部关键点识别设备根据三维坐标在三维坐标系中构建三维手部模型，并使用不同颜色对同一手指上的关键点进行标识。

如图15所示，当上述方法应用于手语识别场景时，终端根据手部关键点识别出的OK手势，在界面中显示手语翻译结果“OK”；当应用于手部特效场景时，终端根据识别出的OK手势，在界面中的手部区域模拟熊掌摆出OK手势；当应用于手势交互场景，智能家居设备根据识别出的OK手势执行确定操作。

综上所述，本实施例中，通过预先根据样本真实图像和样本虚拟图像训练Cycle-GAN模型，并利用Cycle-GAN模型将样本虚拟图像转化为仿真图像，从而根据仿真图像中的手部图像以及关键点坐标训练手部关键点识别模型；由于经过Cycle-GAN模型转化得到的仿真图像能够模拟出样本真实图像的风格，即训练样本更加趋近于采集的真实图像，因此后续利用该手部关键点识别模型对真实图像进行手势识别的准确率更高；并且，基于携带有关键点坐标的样本虚拟图像训练手部关键点识别模型，避免了人工标注关键点坐标，进一步提高了模型训练效率及准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图16，其示出了本申请一个实施例提供的识别模型训练装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

转化模块1610，用于通过Cycle-GAN模型，将样本虚拟图像转化为仿真图像，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标，所述仿真图像用于模仿真实场景下采集的图像；

第一提取模块1620，用于提取所述仿真图像中的手部图像；

第一训练模块1630，用于根据所述仿真图像中的手部图像以及所述关键点坐标，训练手部关键点识别模型，所述手部关键点识别模型用于根据输入的真实图像输出所述真实图像中手部的手部关键点坐标。

可选的，所述装置还包括：

第二训练模块，用于根据样本真实图像和所述样本虚拟图像训练所述Cycle-GAN模型，所述样本真实图像是真实场景下采集的图像。

可选的，所述第二训练模块，用于：

构建第一生成器和第二生成器，所述第一生成器用于生成所述仿真图像，所述第二生成器用于生成仿虚拟图像，所述仿虚拟图像用于模仿所述样本虚拟图像的风格；

构建第一判别器和第二判别器，所述第一判别器用于判别所述样本虚拟图像和所述仿虚拟图像，所述第二判别器用于判别所述样本真实图像和所述仿真图像；

根据所述第一生成器、所述第二生成器、所述第一判别器和所述第二判别器构建所述Cycle-GAN模型；

根据所述样本真实图像和所述样本虚拟图像计算所述Cycle-GAN模型的损失，所述Cycle-GAN模型的损失包括生成器损失、判别器损失和循环损失；

根据所述Cycle-GAN模型的损失反向训练所述Cycle-GAN模型。

可选的，所述转化模块1610，用于：

通过所述Cycle-GAN模型中的所述第一生成器，将所述样本虚拟图像转化为所述仿真图像。

可选的，所述第一提取模块1620，用于：

将所述仿真图像输入手势分割神经网络，输出手部置信区域，所述手势分割神经网络根据标注有手部区域的图像训练得到；

根据所述手部置信区域，从所述仿真图像中提取手部图像。

可选的，所述手势分割神经网络包括n层卷积层和n层反卷积层，n≥2，n为整数；

将所述仿真图像输入手势分割神经网络，输出手部置信区域时，所述第一提取模块1620，还用于：

通过所述n层卷积层对所述仿真图像进行处理，得到所述仿真图像对应的中间特征图；

通过所述n层反卷积层对所述中间特征图进行处理，得到所述仿真图像对应的目标特征图；

根据所述目标特征图生成概率矩阵，所述概率矩阵用于表征所述仿真图像中各个像素点是手部的概率；

对所述概率矩阵进行二值化处理，输出所述手部区域对应的热图，所述热图用于指示所述仿真图像中的所述手部置信区域。

可选的，通过所述n层反卷积层对所述中间特征图进行处理，得到所述仿真图像对应的目标特征图时，所述第一提取模块1620，用于：

对第m层反卷积层输出的特征图与第n-m层卷积层输出的特征图进行拼接，1≤m≤n-1；

通过第m+1层反卷积层对拼接后的特征图进行处理。

可选的，所述第一训练模块1630，用于：

构建所述手部关键点识别模型，所述手部关键点识别模型包括二维识别分支和三维识别分支，所述二维识别分支包括i层二维残差层和卷积层，所述三维识别分支包括i层三维残差层和全连接层，且前j层二维残差层与前j层三维残差层耦合，2≤j≤i-1，i和j为整数；

根据所述手部图像和所述关键点坐标，计算所述手部关键点识别模型的二维识别损失和三维识别损失，所述二维识别损失为所述二维识别分支的识别损失，所述三维识别损失是所述三维识别分支的识别损失；

根据所述二维识别损失和所述三维识别损失反向训练所述手部关键点识别模型。

可选的，根据所述手部图像和所述关键点坐标，计算所述手部关键点识别模型的二维识别损失和三维识别损失时，所述第一训练模块1630，还用于：

将所述手部图像分别输入所述二维识别分支和所述三维识别分支；

对第k层二维残差层输出的特征图和第k层三维残差层输出的特征图进行相加操作，1≤k≤j-1；

将相加后的特征图输入第k+1层二维残差层和第k+1层三维残差层；

通过第j+1至第i层二维残差层以及所述卷积层对所述第j层二维残差层输出的特征图进行处理，得到二维识别结果；

通过第j+1至第i层三维残差层以及所述全连接层对所述第j层三维残差层输出的特征图进行处理，得到三维识别结果；

根据所述二维识别结果和所述关键点坐标计算所述二维识别损失；

根据所述三维识别结果和所述关键点坐标计算所述三维识别损失。

请参考图17，其示出了本申请一个实施例提供的识别装置的框图。该装置具有执行上述方法示例的功能，功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

采集模块1710，用于采集真实图像，所述真实图像中包含手部图像；

第二提取模块1720，用于提取所述真实图像中的所述手部图像；

识别模块1730，用于将所述手部图像输入手部关键点识别模型，得到手部关键点坐标，所述手部关键点识别模型根据仿真图像以及所述仿真图像中手部图像的三维标注数据训练得到，所述仿真图像由Cycle-GAN模型根据样本虚拟图像生成，所述Cycle-GAN模型根据样本真实图像和所述样本虚拟图像训练生成，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标。

请参考图18，其示出了本申请一个实施例提供的识别模型训练设备的结构示意图。该模型训练设备用于实施上述实施例提供的手部关键点的识别模型训练方法。具体来讲：

所述模型训练设备1800包括中央处理单元(CPU)1801、包括随机存取存储器(RAM)1802和只读存储器(ROM)1803的系统存储器1804，以及连接系统存储器1804和中央处理单元1801的系统总线1805。所述模型训练设备1800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1806，和用于存储操作系统1813、应用程序1814和其他程序模块1815的大容量存储设备1807。

所述基本输入/输出系统1806包括有用于显示信息的显示器1808和用于用户输入信息的诸如鼠标、键盘之类的输入设备1809。其中所述显示器1808和输入设备1809都通过连接到系统总线1805的输入输出控制器1810连接到中央处理单元1801。所述基本输入/输出系统1806还可以包括输入输出控制器1810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1807通过连接到系统总线1805的大容量存储控制器(未示出)连接到中央处理单元1801。所述大容量存储设备1807及其相关联的计算机可读介质为模型训练设备1800提供非易失性存储。也就是说，所述大容量存储设备1807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1804和大容量存储设备1807可以统称为存储器。

根据本申请的各种实施例，所述模型训练设备1800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即模型训练设备1800可以通过连接在所述系统总线1805上的网络接口单元1811连接到网络1812，或者说，也可以使用网络接口单元1811来连接到其他类型的网络或远程计算机系统。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述手部关键点识别模型训练方法中各个步骤的功能。

图19示出了本申请一个示例性实施例提供的手部关键点识别设备1000的结构框图。该手部关键点识别设备1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器。

通常，手部关键点识别设备1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。可选的，本申请实施例中，该AI处理器为具有手势识别功能的神经网络处理器(芯片)。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中提供的手部关键点识别方法。

在一些实施例中，手部关键点识别设备1000还可选包括有：外围设备接口1003和至少一个外围设备。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1005还具有采集在触摸显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。触摸显示屏1005用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1005可以为一个，设置手部关键点识别设备1000的前面板；在另一些实施例中，触摸显示屏1005可以为至少两个，分别设置在手部关键点识别设备1000的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏1005可以是柔性显示屏，设置在手部关键点识别设备1000的弯曲表面上或折叠面上。甚至，触摸显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007用于提供用户和手部关键点识别设备1000之间的音频接口。音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在手部关键点识别设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位手部关键点识别设备1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为手部关键点识别设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，手部关键点识别设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以手部关键点识别设备1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测手部关键点识别设备1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对手部关键点识别设备1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在手部关键点识别设备1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在手部关键点识别设备1000的侧边框时，可以检测用户对手部关键点识别设备1000的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，可以根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置手部关键点识别设备1000的正面、背面或侧面。当手部关键点识别设备1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在手部关键点识别设备1000的正面。接近传感器1016用于采集用户与手部关键点识别设备1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与手部关键点识别设备1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与手部关键点识别设备1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对手部关键点识别设备1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的手部关键点识别模型训练方法或手部关键点识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

1.一种手部关键点的识别模型训练方法，其特征在于，所述方法包括：

通过循环生成对抗网络Cycle-GAN模型，将样本虚拟图像转化为仿真图像，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标，所述仿真图像用于模仿真实场景下采集的图像；

提取所述仿真图像中的手部图像；

2.根据权利要求1所述的方法，其特征在于，所述通过Cycle-GAN模型，将样本虚拟图像转化为仿真图像之前，所述方法还包括：

根据样本真实图像和所述样本虚拟图像训练所述Cycle-GAN模型，所述样本真实图像是真实场景下采集的图像。

3.根据权利要求2所述的方法，其特征在于，所述根据样本真实图像和所述样本虚拟图像训练所述Cycle-GAN模型，包括：

根据所述Cycle-GAN模型的损失反向训练所述Cycle-GAN模型。

4.根据权利要求3所述的方法，其特征在于，所述通过Cycle-GAN模型，将样本虚拟图像转化为仿真图像，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述提取所述仿真图像中的手部图像，包括：

根据所述手部置信区域，从所述仿真图像中提取手部图像。

6.根据权利要求5所述的方法，其特征在于，所述手势分割神经网络包括n层卷积层和n层反卷积层，n≥2，n为整数；

所述将所述仿真图像输入手势分割神经网络，输出手部置信区域，包括：

7.根据权利要求6所述的方法，其特征在于，所述通过所述n层反卷积层对所述中间特征图进行处理，得到所述仿真图像对应的目标特征图，包括：

通过第m+1层反卷积层对拼接后的特征图进行处理。

8.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述仿真图像中的手部图像以及所述关键点坐标，训练手部关键点识别模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述手部图像和所述关键点坐标，计算所述手部关键点识别模型的二维识别损失和三维识别损失，包括：

10.一种手部关键点的识别方法，其特征在于，所述方法包括：

采集真实图像，所述真实图像中包含手部图像；

提取所述真实图像中的所述手部图像；

将所述手部图像输入手部关键点识别模型，得到手部关键点坐标，所述手部关键点识别模型根据仿真图像以及所述仿真图像中手部图像的三维标注数据训练得到，所述仿真图像由循环生成对抗网络Cycle-GAN模型根据样本虚拟图像生成，所述Cycle-GAN模型根据样本真实图像和所述样本虚拟图像训练生成，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标。

11.一种手部关键点的识别模型训练装置，其特征在于，所述装置包括：

转化模块，用于通过循环生成对抗网络Cycle-GAN模型，将样本虚拟图像转化为仿真图像，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标，所述仿真图像用于模仿真实场景下采集的图像；

第一提取模块，用于提取所述仿真图像中的手部图像；

12.一种手部关键点的识别装置，其特征在于，所述装置包括：

第二提取模块，用于提取所述真实图像中的所述手部图像；

识别模块，用于将所述手部图像输入手部关键点识别模型，得到手部关键点坐标，所述手部关键点识别模型根据仿真图像以及所述仿真图像中手部图像的三维标注数据训练得到，所述仿真图像由循环生成对抗网络Cycle-GAN模型根据样本虚拟图像生成，所述Cycle-GAN模型根据样本真实图像和所述样本虚拟图像训练生成，所述样本虚拟图像是三维建模生成的图像，且所述样本虚拟图像包含手部关键点对应的关键点坐标。

13.一种手部关键点的识别模型训练设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至9任一所述的手部关键点的识别模型训练方法。

14.一种手部关键点识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求10所述的手部关键点的识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至9任一所述的手部关键点的识别模型训练方法，或，实现如权利要求10所述的手部关键点的识别方法。