CN109697407A

CN109697407A - 一种图像处理方法及装置

Info

Publication number: CN109697407A
Application number: CN201811351196.3A
Authority: CN
Inventors: 郑慧; 顾嘉唯
Original assignee: Beijing Genius Intelligent Technology Co Ltd
Current assignee: Beijing Genius Intelligent Technology Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-04-30

Abstract

本申请公开了一种图像处理方法及装置，该方法包括：根据手势训练图像以及损失函数训练神经网络模型；所述神经网络模型输出手部位置，手指指尖的方向，手势类别和置信度；所述损失函数包括定位和类别损失函数，定位损失函数包含手部位置以及手指指尖的方向。

Description

一种图像处理方法及装置

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理方法及装置。

背景技术

图1为计算机组成结构框图，其中示出了计算机的主要部件。图1中，处理器110、内部存储器105、总线桥120以及网络接口115接入系统总线 140，总线桥120用于桥接系统总线140和I/O总线145，I/O接口接入I/O 总线145，USB接口以及外部存储器与I/O接口连接。图1中，处理器110 可以为一个或多个处理器，每个处理可以具有一个或者多个处理器内核；内部存储器105为易失性存储器，例如寄存器、缓存器、各种类型的随机存取存储器等；在计算机开机运行的时候，内部存储器105中的数据包括操作系统和应用程序；网络接口115可以为以太网接口、光纤接口等；系统总线140 可以用来传送数据信息、地址信息、以及控制信息；总线桥120可以用来进行协议转换，将系统总线协议转换为I/O协议或者将I/O协议转换为系统总线协议以实现数据传输；I/O总线145用来数据信息和控制信息，还可以总线终结电阻或电路来降低信号反射干扰；I/O接口130主要与各种外部设备连接，例如键盘、鼠标、传感器等等，闪存可以通过USB接口接入I/O总线，外部存储器为非易失性存储器，例如硬盘、光盘等。在计算机开机之后，处理器可以将存储于外部存储其中的数据读取到内部存储器中，并对内部存储其中的计算机指令进行处理，完成操作系统以及应用程序的功能。该示例计算机可以为台式机、笔记本电脑、平板电脑、智能手机等。

基于图1所示的计算机组成结构可以进行图像处理。随着社会的发展，对于图像处理的需求越来越大。例如，图像处理可以应用于例如安全监测、停车收费、人脸识别等领域。手势识别是图像识别中重要的细分领域之一，手势识别可以用于实现远程遥控、互动游戏等等。

在进行手势识别时，需要使用手势识别算对图像中包含手的区域进行特征提取，然后再进行手势分类，比如OK，胜利，五指张开等等。现有技术中，基于卷积神经网络的手势识别算法可以输出手的区域和手势识别结果。但是，现有技术中的手势识别技术方案不能满足图书点读的要求。

发明内容

有鉴于此，本申请实施例提供一种图像处理方法及装置。

本申请提供了一种图像处理方法，包括：

根据手势训练图像以及损失函数训练神经网络模型；所述神经网络模型输出手部位置以及手指指尖的方向，所述损失函数包括定位损失函数，定位损失函数包含手部位置以及手指指尖的方向。

优选地，所述神经网络模型还输出手势类别和置信度，所述损失函数还包括类别损失函数。

优选地，所述手势训练图像中，五个手指中仅有一个手指伸出并且其它手指收回。

优选地，所述手势训练图像中手部位置为矩形，该矩形由矩形的左上角坐标和右下角坐标表示，所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。

优选地，所述夹角θ∈[-π,π]。

优选地，所述定位损失函数为：

其中，λ_coord表示匹配上手势训练图像中手部位置的权重因子；S²表示图像被分割为S*S个网格；B表示每个网格中预测的手部位置以及手指指尖的方向的数量；表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配；(x_i，y_i)是第i个网格中第j个预测的手部位置的左上角坐标；是第i个网格中手势训练图像中手部位置的左上角的坐标； (w_i，h_i)是第i个网格中第j个预测的手部位置的宽和高；是第i个网格中手势训练图像中手部位置的宽和高；

θ_i表示第i个网格中第j个预测的手指指尖的方向，表示第i个网格中手势训练图像中手指指尖的方向。

优选地，所述分类损失函数为：

其中，λ_noobj表示没有匹配上手势训练图像中手部位置的权重因子；表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配；p_i(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率；表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率；C_i表示第i个网格中第j个预测的手势类别的置信度；表示第i 个网格中手势训练图像中手势类别的置信度；classes表示所有的类别。

优选地，所述定位损失函数为：

其中：

其中，Pos表示预测正确的手部位置以及手指指尖的方向集合； (cx，cy，w，h，conθ，sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向；表示第i个预设的手部位置以及手指指尖的方向；

表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配，否则为0；表示预测的手部位置以及手指指尖方向与第i个预设的手部位置以及手指指尖的方向之间的差异；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。

优选地，所述分类损失函数为：

表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配；表示第i个预测的手势类别属于第p类的置信度； Neg表示预测错误的手部位置以及手指指尖的方向集合。

优选地，所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。

本申请实施例提供了一种图像处理方法，该方法包括；

获取手势图像，并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向；

根据所述手势图像中手部位置以及手指指尖的方向确定指尖的位置。

优选地，该方法还包括：

根据手指指尖的位置对用户的手势进行反馈。

优选地，该方法还包括：

优选地，所述夹角θ∈[-π,π]。

优选地，所述定位损失函数为：

优选地，所述分类损失函数为：

优选地，所述定位损失函数为：

其中：

表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配，否则为0；表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。

优选地，所述分类损失函数为：

本申请实施例提供了一种图像处理装置，包括：训练模块，用于根据手势训练图像以及损失函数训练神经网络模型；所述神经网络模型输出手部位置以及手指指尖的方向，所述损失函数包括定位损失函数，定位损失函数包含手部位置以及手指指尖的方向。

优选地，所述夹角θ∈[-π,π]。

优选地，所述定位损失函数为：

其中，λ_coord表示匹配上手势训练图像中手部位置的权重因子；S2表示图像被分割为S*S个网格；B表示每个网格中预测的手部位置以及手指指尖的方向的数量；表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配；(x_i，y_i)是第i个网格中第j个预测的手部位置的左上角坐标；是第i个网格中手势训练图像中手部位置的左上角的坐标； (w_i，h_i)是第i个网格中第j个预测的手部位置的宽和高；是第i个网格中手势训练图像中手部位置的宽和高；

优选地，所述分类损失函数为：

优选地，所述定位损失函数为：

其中：

优选地，所述分类损失函数为：

本申请实施例提供了一种图像处理装置，包括：获取模块，用于获取手势图像，并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向；

确定模块，用于根据所述手势图像中手部位置以及手指指尖的方向确定手指指尖的位置。

优选地，该装置还包括：

反馈模块，用于根据手指指尖的位置对用户的手势进行反馈。

优选地，该装置还包括：

训练模块，用于根据手势训练图像以及损失函数训练神经网络模型；所述神经网络模型输出手部位置以及手指指尖的方向，所述损失函数包括定位损失函数，定位损失函数包含手部位置以及手指指尖的方向。

优选地，所述夹角θ∈[-π,π]。

优选地，所述定位损失函数为：

优选地，所述分类损失函数为：

优选地，所述定位损失函数为：

其中：

优选地，所述分类损失函数为：

本申请提供了一种图像处理装置，包括：处理器和存储器，存储器上存储有程序；

所述处理器，用于执行所述程序以实现所述的方法。

本申请利用端到端的神经网络结构实现了点读手势识别功能。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为现有技术中计算机组成结构框图；

图2为本申请实施例提供的图像处理方法示意图；

图3为本申请实施例提供的点读手势图像；

图4为本申请实施例提供的图像处理方法示意图；

图5为本申请实施例提供的图像处理装置示意图；

图6为本申请实施例提供的图像处理装置示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

本发明实施例期望提供一种技术方案来实现手势识别的功能。例如，在进行图书点读时，例如对绘本进行点读时，用户将手指指尖放置于绘本中的图画上，机器人通过摄像头获取的图像检测出图像中存在的点读手势的指尖位置，实现点读手势的识别功能。

优选地，本发明实施例中的点读手势可以定义为：五指中仅有一个手指用于指点，其它手指自然收回。

手势识别算法采用端到端的卷积神经网络算法，利用训练图像训练手势识别模型，实现点读手势识别。

图2为本申请实施例提供的图像处理方法流程图，具体包括：

步骤205，训练神经网络模型；神经网络模型可以采用端到端的卷积神经网络算法，利用训练图像训练手势识别模型，实现点读手势识别。

在训练神经网络模型时需要用到训练图像，例如该训练图像为手势训练图像。本申请实施例中，期望通过对神经网络模型的训练，能够识别点读手势，确定指尖的位置，从而完成阅读机器人与用户之间的交互。为了实现点读，点读手势可以定义如下：五指中仅有一个手指用于指点，其它手指自然收回。

在准备训练手势图像时，可以选用大量的具有点读手势的图像，即只有一个手指伸出、其他手指收回的手部图像。

为了完成神经网络模型的训练，需要预先对点读手势图像进行标注，例如标注出训练图像的手部位置和手指指尖的方向。图3示出了训练图像的手部位置和手指指尖的角度，其中点手部位置可以为矩形，例如可以由矩形左上角坐标和右下角坐标组成一个四维向量P＝(min_x,min_y,max_x,max_y)，指尖方向是一个角度值θ∈[-π,π]，其中矩形宽度为max_x-min_x，矩形高度为max_y-min_x。

基于深度卷积神经网络的目标检测算法，损失函数通常要包含分类误差和定位误差，分类误差主要考虑预测目标的类别与实际标定目标类别之间的差异，定位误差主要考虑的是预测目标的位置坐标和实际标定的目标的位置坐标之间的差异。损失函数的计算方法很多，不同的网络结构可以应用不同的损失函数，但需要说明的是，同一个损失函数也可以应用到不同网络结构的卷积神经网络模型中。

式1示出了YOLO网络结构的损失函数：

其包括定位损失函数和分类损失函数两部分，前半部分表示定位损失函数，后半部分表示分类损失函数。

λ_noobj表示没有匹配上手势训练图像中手部位置的权重因子；表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配； p_i(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率；表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率；C_i表示第i个网格中第j个预测的手势类别的置信度；表示第i个网格中手势训练图像中手势类别的置信度；classes表示所有的类别。

式2示出了SSD网络结构的损失函数：

其中，定位损失函数为：

其中，Pos表示预测正确的手部位置以及手指指尖的方向集合； (cx，cy，w，h，)表示手部位置的中心坐标、宽、高；表示手势训练图像中标记的第j个手部位置；表示第i个预设的手部位置；

表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配，否则为0；表示预测的手部位置与第i个预设的手部位置之间的差异；表示手势训练图像中标记的第j个手部位置与第i 个预设的手部位置之间的差异。

分类损失函数为：

可以看到，虽然形式不同，但对于坐标计算来说，误差函数都是坐标差值的变形，如式1中使用了差值的平方，式2中使用了分段函数。

本申请实施例中，由于使用了手指指尖的方向，因此需要在损失函数中增加相关的参数。本申请在定位误差中增加了方向角误差，而方向角误差和坐标误差的计算方法不同。坐标误差是两个值差值的绝对值(直接相减，取绝对值即可)，方向角误差需要考虑角度的周期性(周期为2π)，直接相减后差值范围为[-2π,2π]，超过一个周期，因此不能直接通过角度差的绝对值来计算。本申请实施例采用方向角的余弦和正弦值之间的差值计算两个方向角之间的误差。

两个方向角的误差求解方法如下：

(Δθ₁₂)²＝(cosθ₁-cosθ₂)²+(sinθ₁-sinθ₂)²。

在损失函数中增加方向角误差之后，可以将式1和式2变形为：

YOLO损失函数:

其中，

对于SSD，修改定位损失函数部分，增加两项方向角误差：

其中：

其中，Pos表示预测正确的手部位置以及手指指尖的方向集合； (cx，cy，w，h，conθ，sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向；表示第i个预设的手部位置以及手指指尖的方向。

步骤210，获取手势图像，并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向；

手势图像可以通过阅读机器人的摄像头拍摄用户手势得到，也可以通过照相机拍摄用户手势得到，还可以通过读取已经存储的手势图像得到。

获取的手势图像作为输入，通过训练完成的神经网络模型对该手势图像进行处理后，输出手势图像中手部位置，手指指尖的方向，手势类别和置信度。

步骤215，根据手势图像中手部位置以及手指指尖的方向确定指尖的位置。

通过对手部位置以及手指指尖的方向进行坐标转换得到手指指尖的坐标，如式5所示：

其中，

本申请实施例中的神经网络模型结构可以采用已有的目标检测网络模型，如YOLO、SSD等，也可以自己设计网络结构模型，根据需要，在输出层中增加方向角输出。

图4示出了利用本申请实施例训练得到的神经网络模型进行手势点读的流程，具体包括：

步骤405，阅读机器人的摄像头获取手势图像；

步骤410，神经网络模型对手势图像进行处理得到手部位置和手指指尖的方向；

步骤415，根据手部位置和手指指尖的方向确定手指的位置；

步骤420，根据手指的位置确定手指的位置对应的图形的反馈，并播放反馈的结果；例如手指的位置对应于一只熊，可以播放语音“这是一只熊”。

进一步地，反馈还可以按照问答的方式实现，例如阅读机器人会问“小熊在哪”，如果用户手指放在了小熊所在的位置，阅读机器人可以播放“真棒，这的确是一只小熊”，如果用户的手指没有放在小鹿所在的位置，阅读机器人可以播放“这是一只小鹿，再找找小熊在哪吧”。

相应地，本申请实施例提供了一种图像处理装置，如图5所示，具体包括：获取模块、以及确定模块。获取模块，用于获取手势图像，并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向；确定模块，用于根据手势图像中手部位置以及手指指尖的方向确定手指指尖的位置。

优选地，本申请实施提供的图像处理装置还可以包括训练模块，用于根据手势训练图像以及损失函数训练神经网络模型；神经网络模型输出手部位置，手指指尖的方向，手势分类和置信度，损失函数包括定位和类别损失函数，定位损失函数包含手部位置以及手指指尖的方向。

本申请实施提供的图像处理装置还可以包括反馈模块，用于根据指尖的位置对用户的手势进行反馈。

相应地，本申请实施例提供了一种图像处理装置，如图6所示，包括：处理器和存储器，存储器上存储有程序；处理器，用于执行程序以实现本申请实施例提供的方法。

可选地，本申请实施例还提供了一种图像处理方法，用于训练神经网络模型，具体包括：

根据手势训练图像以及损失函数训练神经网络模型；神经网络模型输出手部位置，手指指尖的方向，手势分类和置信度，所述损失函数包括定位和类别损失函数，定位损失函数包含手部位置以及手指指尖的方向。

可选地，本申请实施例还提供了一种图像处理装置，用于训练神经网络模型，具体包括训练模块，用于根据手势训练图像以及损失函数训练神经网络模型；神经网络模型输出手部位置，手指指尖的方向，手势分类和置信度，损失函数包括定位和类别损失函数，定位损失函数包含手部位置以及手指指尖的方向。

针对点读手势识别同其它目标检测不一样的特点，在位置信息中增加了一个方向信息，既考虑了点读手势整体的特征，又满足了指尖位置检测的目标，利用一个端到端的神经网络结构，实现了点读手势识别功能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干具体实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型还输出手势类别和置信度，所述损失函数还包括类别损失函数。

3.根据权利要求1所述的方法，其特征在于，所述手势训练图像中，五个手指中仅有一个手指伸出并且其它手指收回。

4.根据权利要求2所述的方法，其特征在于，所述手势训练图像中手部位置为矩形，该矩形由矩形的左上角坐标和右下角坐标表示，所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。

5.根据权利要求2所述的方法，其特征在于，所述夹角θ∈[-π,π]。

6.根据权利要求2所述的方法，其特征在于，所述定位损失函数为：

其中，λ_coord表示匹配上手势训练图像中手部位置的权重因子；S²表示图像被分割为S＊S个网格；B表示每个网格中预测的手部位置以及手指指尖的方向的数量；表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配；(x_i,y_i)是第i个网格中第j个预测的手部位置的左上角坐标；是第i个网格中手势训练图像中手部位置的左上角的坐标；(w_i，h_i)是第i个网格中第j个预测的手部位置的宽和高；是第i个网格中手势训练图像中手部位置的宽和高；

7.根据权利要求6所述的方法，其特征在于，所述分类损失函数为：

其中，λ_noobj表示没有匹配上手势训练图像中手部位置的权重因子；表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配；p_i(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率；表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率；C_i表示第i个网格中第j个预测的手势类别的置信度；表示第i个网格中手势训练图像中手势类别的置信度；classes表示所有的类别。

8.根据权利要求2所述的方法，其特征在于，所述定位损失函数为：

其中：

其中，Pos表示预测正确的手部位置以及手指指尖的方向集合；(cx，cy，w，h，conθ，sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向；表示第i个预设的手部位置以及手指指尖的方向；

9.根据权利要求8所述的方法，其特征在于，所述分类损失函数为：

表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配；表示第i个预测的手势类别属于第p类的置信度；Neg表示预测错误的手部位置以及手指指尖的方向集合。

10.根据权利要求1所述的方法，其特征在于，所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。

11.一种图像处理方法，其特征在于，该方法包括；

12.根据权利要求11所述的方法，其特征在于，该方法还包括：

根据手指指尖的位置对用户的手势进行反馈。

13.根据权利要求11所述的方法，其特征在于，该方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述神经网络模型还输出手势类别和置信度，所述损失函数还包括类别损失函数。

15.根据权利要求11所述的方法，其特征在于，所述手势训练图像中，五个手指中仅有一个手指伸出并且其它手指收回。

16.根据权利要求11所述的方法，其特征在于，所述手势训练图像中手部位置为矩形，该矩形由矩形的左上角坐标和右下角坐标表示，所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。

17.根据权利要求16所述的方法，其特征在于，所述夹角θ∈[-π,π]。

18.根据权利要求14所述的方法，其特征在于，所述定位损失函数为：

19.根据权利要求18所述的方法，其特征在于，所述分类损失函数为：

20.根据权利要求14所述的方法，其特征在于，所述定位损失函数为：

其中：

其中，Pos表示预测正确的手部位置以及手指指尖的方向集合；(cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦；表示手势训练图像中标记的第j个手部位置以及手指指尖的方向；表示第i个预设的手部位置以及手指指尖的方向；

21.根据权利要求20所述的方法，其特征在于，所述分类损失函数为：

22.根据权利要求11所述的方法，其特征在于，所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。

23.一种图像处理装置，其特征在于，包括：训练模块，用于根据手势训练图像以及损失函数训练神经网络模型；所述神经网络模型输出手部位置以及手指指尖的方向，所述损失函数包括定位损失函数，定位损失函数包含手部位置以及手指指尖的方向。

24.根据权利要求23所述的装置，其特征在于，所述神经网络模型还输出手势类别和置信度，所述损失函数还包括类别损失函数。

25.根据权利要求23所述的装置，其特征在于，所述手势训练图像中，五个手指中仅有一个手指伸出并且其它手指收回。

26.根据权利要求23所述的装置，其特征在于，所述手势训练图像中手部位置为矩形，该矩形由矩形的左上角坐标和右下角坐标表示，所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。

27.根据权利要求26所述的装置，其特征在于，所述夹角θ∈[-π,π]。

28.根据权利要求24所述的装置，其特征在于，所述定位损失函数为：

29.根据权利要求28所述的装置，其特征在于，所述分类损失函数为：

30.根据权利要求24所述的装置，其特征在于，所述定位损失函数为：

其中：

31.根据权利要求23所述的装置，其特征在于，所述分类损失函数为：

32.根据权利要求24所述的装置，其特征在于，所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。

33.一种图像处理装置，其特征在于，包括：获取模块，用于获取手势图像，并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向；

34.根据权利要求33所述的装置，其特征在于，该装置还包括：

35.根据权利要求33所述的装置，其特征在于，该装置还包括：

36.根据权利要求35所述的装置，其特征在于，所述神经网络模型还输出手势类别和置信度，所述损失函数还包括类别损失函数。

37.根据权利要求33所述的装置，其特征在于，所述手势训练图像中，五个手指中仅有一个手指伸出并且其它手指收回。

38.根据权利要求33所述的装置，其特征在于，所述手势训练图像中手部位置为矩形，该矩形由矩形的左上角坐标和右下角坐标表示，所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。

39.根据权利要求38所述的装置，其特征在于，所述夹角θ∈[-π,π]。

40.根据权利要求36所述的装置，其特征在于，所述定位损失函数为：

41.根据权利要求37所述的装置，其特征在于，所述分类损失函数为：

42.根据权利要求36所述的装置，其特征在于，所述定位损失函数为：

其中：

43.根据权利要求42所述的装置，其特征在于，所述分类损失函数为：

44.根据权利要求33所述的装置，其特征在于，所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。

45.一种图像处理装置，其特征在于，包括：处理器和存储器，存储器上存储有程序；

所述处理器，用于执行所述程序以实现根据权利要求1或11所述的方法。