CN109697407A - 一种图像处理方法及装置 - Google Patents

一种图像处理方法及装置 Download PDF

Info

Publication number
CN109697407A
CN109697407A CN201811351196.3A CN201811351196A CN109697407A CN 109697407 A CN109697407 A CN 109697407A CN 201811351196 A CN201811351196 A CN 201811351196A CN 109697407 A CN109697407 A CN 109697407A
Authority
CN
China
Prior art keywords
hand position
gesture
indicate
training image
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811351196.3A
Other languages
English (en)
Inventor
郑慧
顾嘉唯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Genius Intelligent Technology Co Ltd
Original Assignee
Beijing Genius Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Genius Intelligent Technology Co Ltd filed Critical Beijing Genius Intelligent Technology Co Ltd
Priority to CN201811351196.3A priority Critical patent/CN109697407A/zh
Publication of CN109697407A publication Critical patent/CN109697407A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种图像处理方法及装置,该方法包括:根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置,手指指尖的方向,手势类别和置信度;所述损失函数包括定位和类别损失函数,定位损失函数包含手部位置以及手指指尖的方向。

Description

一种图像处理方法及装置
技术领域
本申请涉及图像处理领域,尤其涉及一种图像处理方法及装置。
背景技术
图1为计算机组成结构框图,其中示出了计算机的主要部件。图1中,处理器110、内部存储器105、总线桥120以及网络接口115接入系统总线 140,总线桥120用于桥接系统总线140和I/O总线145,I/O接口接入I/O 总线145,USB接口以及外部存储器与I/O接口连接。图1中,处理器110 可以为一个或多个处理器,每个处理可以具有一个或者多个处理器内核;内部存储器105为易失性存储器,例如寄存器、缓存器、各种类型的随机存取存储器等;在计算机开机运行的时候,内部存储器105中的数据包括操作系统和应用程序;网络接口115可以为以太网接口、光纤接口等;系统总线140 可以用来传送数据信息、地址信息、以及控制信息;总线桥120可以用来进行协议转换,将系统总线协议转换为I/O协议或者将I/O协议转换为系统总线协议以实现数据传输;I/O总线145用来数据信息和控制信息,还可以总线终结电阻或电路来降低信号反射干扰;I/O接口130主要与各种外部设备连接,例如键盘、鼠标、传感器等等,闪存可以通过USB接口接入I/O总线,外部存储器为非易失性存储器,例如硬盘、光盘等。在计算机开机之后,处理器可以将存储于外部存储其中的数据读取到内部存储器中,并对内部存储其中的计算机指令进行处理,完成操作系统以及应用程序的功能。该示例计算机可以为台式机、笔记本电脑、平板电脑、智能手机等。
基于图1所示的计算机组成结构可以进行图像处理。随着社会的发展,对于图像处理的需求越来越大。例如,图像处理可以应用于例如安全监测、停车收费、人脸识别等领域。手势识别是图像识别中重要的细分领域之一,手势识别可以用于实现远程遥控、互动游戏等等。
在进行手势识别时,需要使用手势识别算对图像中包含手的区域进行特征提取,然后再进行手势分类,比如OK,胜利,五指张开等等。现有技术中,基于卷积神经网络的手势识别算法可以输出手的区域和手势识别结果。但是,现有技术中的手势识别技术方案不能满足图书点读的要求。
发明内容
有鉴于此,本申请实施例提供一种图像处理方法及装置。
本申请提供了一种图像处理方法,包括:
根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
优选地,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
优选地,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
优选地,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
优选地,所述夹角θ∈[-π,π]。
优选地,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标; (wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
优选地,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i 个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
优选地,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
优选地,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度; Neg表示预测错误的手部位置以及手指指尖的方向集合。
优选地,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
本申请实施例提供了一种图像处理方法,该方法包括;
获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;
根据所述手势图像中手部位置以及手指指尖的方向确定指尖的位置。
优选地,该方法还包括:
根据手指指尖的位置对用户的手势进行反馈。
优选地,该方法还包括:
根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
优选地,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
优选地,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
优选地,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
优选地,所述夹角θ∈[-π,π]。
优选地,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标; (wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
优选地,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i 个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
优选地,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
优选地,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度; Neg表示预测错误的手部位置以及手指指尖的方向集合。
优选地,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
本申请实施例提供了一种图像处理装置,包括:训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
优选地,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
优选地,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
优选地,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
优选地,所述夹角θ∈[-π,π]。
优选地,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标; (wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
优选地,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i 个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
优选地,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
优选地,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度; Neg表示预测错误的手部位置以及手指指尖的方向集合。
优选地,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
本申请实施例提供了一种图像处理装置,包括:获取模块,用于获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;
确定模块,用于根据所述手势图像中手部位置以及手指指尖的方向确定手指指尖的位置。
优选地,该装置还包括:
反馈模块,用于根据手指指尖的位置对用户的手势进行反馈。
优选地,该装置还包括:
训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
优选地,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
优选地,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
优选地,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
优选地,所述夹角θ∈[-π,π]。
优选地,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标; (wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
优选地,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i 个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
优选地,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
优选地,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度; Neg表示预测错误的手部位置以及手指指尖的方向集合。
优选地,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
本申请提供了一种图像处理装置,包括:处理器和存储器,存储器上存储有程序;
所述处理器,用于执行所述程序以实现所述的方法。
本申请利用端到端的神经网络结构实现了点读手势识别功能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为现有技术中计算机组成结构框图;
图2为本申请实施例提供的图像处理方法示意图;
图3为本申请实施例提供的点读手势图像;
图4为本申请实施例提供的图像处理方法示意图;
图5为本申请实施例提供的图像处理装置示意图;
图6为本申请实施例提供的图像处理装置示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
本发明实施例期望提供一种技术方案来实现手势识别的功能。例如,在进行图书点读时,例如对绘本进行点读时,用户将手指指尖放置于绘本中的图画上,机器人通过摄像头获取的图像检测出图像中存在的点读手势的指尖位置,实现点读手势的识别功能。
优选地,本发明实施例中的点读手势可以定义为:五指中仅有一个手指用于指点,其它手指自然收回。
手势识别算法采用端到端的卷积神经网络算法,利用训练图像训练手势识别模型,实现点读手势识别。
图2为本申请实施例提供的图像处理方法流程图,具体包括:
步骤205,训练神经网络模型;神经网络模型可以采用端到端的卷积神经网络算法,利用训练图像训练手势识别模型,实现点读手势识别。
在训练神经网络模型时需要用到训练图像,例如该训练图像为手势训练图像。本申请实施例中,期望通过对神经网络模型的训练,能够识别点读手势,确定指尖的位置,从而完成阅读机器人与用户之间的交互。为了实现点读,点读手势可以定义如下:五指中仅有一个手指用于指点,其它手指自然收回。
在准备训练手势图像时,可以选用大量的具有点读手势的图像,即只有一个手指伸出、其他手指收回的手部图像。
为了完成神经网络模型的训练,需要预先对点读手势图像进行标注,例如标注出训练图像的手部位置和手指指尖的方向。图3示出了训练图像的手部位置和手指指尖的角度,其中点手部位置可以为矩形,例如可以由矩形左上角坐标和右下角坐标组成一个四维向量P=(min_x,min_y,max_x,max_y),指尖方向是一个角度值θ∈[-π,π],其中矩形宽度为max_x-min_x,矩形高度为max_y-min_x。
基于深度卷积神经网络的目标检测算法,损失函数通常要包含分类误差和定位误差,分类误差主要考虑预测目标的类别与实际标定目标类别之间的差异,定位误差主要考虑的是预测目标的位置坐标和实际标定的目标的位置坐标之间的差异。损失函数的计算方法很多,不同的网络结构可以应用不同的损失函数,但需要说明的是,同一个损失函数也可以应用到不同网络结构的卷积神经网络模型中。
式1示出了YOLO网络结构的损失函数:
其包括定位损失函数和分类损失函数两部分,前半部分表示定位损失函数,后半部分表示分类损失函数。
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标; (wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配; pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
式2示出了SSD网络结构的损失函数:
其中,定位损失函数为:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,)表示手部位置的中心坐标、宽、高;表示手势训练图像中标记的第j个手部位置;表示第i个预设的手部位置;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置与第i个预设的手部位置之间的差异;表示手势训练图像中标记的第j个手部位置与第i 个预设的手部位置之间的差异。
分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置与第i个预设的手部位置之间的差异;表示手势训练图像中标记的第j个手部位置与第i 个预设的手部位置之间的差异。
可以看到,虽然形式不同,但对于坐标计算来说,误差函数都是坐标差值的变形,如式1中使用了差值的平方,式2中使用了分段函数。
本申请实施例中,由于使用了手指指尖的方向,因此需要在损失函数中增加相关的参数。本申请在定位误差中增加了方向角误差,而方向角误差和坐标误差的计算方法不同。坐标误差是两个值差值的绝对值(直接相减,取绝对值即可),方向角误差需要考虑角度的周期性(周期为2π),直接相减后差值范围为[-2π,2π],超过一个周期,因此不能直接通过角度差的绝对值来计算。本申请实施例采用方向角的余弦和正弦值之间的差值计算两个方向角之间的误差。
两个方向角的误差求解方法如下:
(Δθ12)2=(cosθ1-cosθ2)2+(sinθ1-sinθ2)2
在损失函数中增加方向角误差之后,可以将式1和式2变形为:
YOLO损失函数:
其中,
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
对于SSD,修改定位损失函数部分,增加两项方向角误差:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合; (cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向。
步骤210,获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;
手势图像可以通过阅读机器人的摄像头拍摄用户手势得到,也可以通过照相机拍摄用户手势得到,还可以通过读取已经存储的手势图像得到。
获取的手势图像作为输入,通过训练完成的神经网络模型对该手势图像进行处理后,输出手势图像中手部位置,手指指尖的方向,手势类别和置信度。
步骤215,根据手势图像中手部位置以及手指指尖的方向确定指尖的位置。
通过对手部位置以及手指指尖的方向进行坐标转换得到手指指尖的坐标,如式5所示:
其中,
本申请实施例中的神经网络模型结构可以采用已有的目标检测网络模型,如YOLO、SSD等,也可以自己设计网络结构模型,根据需要,在输出层中增加方向角输出。
图4示出了利用本申请实施例训练得到的神经网络模型进行手势点读的流程,具体包括:
步骤405,阅读机器人的摄像头获取手势图像;
步骤410,神经网络模型对手势图像进行处理得到手部位置和手指指尖的方向;
步骤415,根据手部位置和手指指尖的方向确定手指的位置;
步骤420,根据手指的位置确定手指的位置对应的图形的反馈,并播放反馈的结果;例如手指的位置对应于一只熊,可以播放语音“这是一只熊”。
进一步地,反馈还可以按照问答的方式实现,例如阅读机器人会问“小熊在哪”,如果用户手指放在了小熊所在的位置,阅读机器人可以播放“真棒,这的确是一只小熊”,如果用户的手指没有放在小鹿所在的位置,阅读机器人可以播放“这是一只小鹿,再找找小熊在哪吧”。
相应地,本申请实施例提供了一种图像处理装置,如图5所示,具体包括:获取模块、以及确定模块。获取模块,用于获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;确定模块,用于根据手势图像中手部位置以及手指指尖的方向确定手指指尖的位置。
优选地,本申请实施提供的图像处理装置还可以包括训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;神经网络模型输出手部位置,手指指尖的方向,手势分类和置信度,损失函数包括定位和类别损失函数,定位损失函数包含手部位置以及手指指尖的方向。
本申请实施提供的图像处理装置还可以包括反馈模块,用于根据指尖的位置对用户的手势进行反馈。
相应地,本申请实施例提供了一种图像处理装置,如图6所示,包括:处理器和存储器,存储器上存储有程序;处理器,用于执行程序以实现本申请实施例提供的方法。
可选地,本申请实施例还提供了一种图像处理方法,用于训练神经网络模型,具体包括:
根据手势训练图像以及损失函数训练神经网络模型;神经网络模型输出手部位置,手指指尖的方向,手势分类和置信度,所述损失函数包括定位和类别损失函数,定位损失函数包含手部位置以及手指指尖的方向。
可选地,本申请实施例还提供了一种图像处理装置,用于训练神经网络模型,具体包括训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;神经网络模型输出手部位置,手指指尖的方向,手势分类和置信度,损失函数包括定位和类别损失函数,定位损失函数包含手部位置以及手指指尖的方向。
针对点读手势识别同其它目标检测不一样的特点,在位置信息中增加了一个方向信息,既考虑了点读手势整体的特征,又满足了指尖位置检测的目标,利用一个端到端的神经网络结构,实现了点读手势识别功能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干具体实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (45)

1.一种图像处理方法,其特征在于,包括:
根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
3.根据权利要求1所述的方法,其特征在于,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
4.根据权利要求2所述的方法,其特征在于,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
5.根据权利要求2所述的方法,其特征在于,所述夹角θ∈[-π,π]。
6.根据权利要求2所述的方法,其特征在于,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标;(wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
7.根据权利要求6所述的方法,其特征在于,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
8.根据权利要求2所述的方法,其特征在于,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合;(cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
9.根据权利要求8所述的方法,其特征在于,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度;Neg表示预测错误的手部位置以及手指指尖的方向集合。
10.根据权利要求1所述的方法,其特征在于,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
11.一种图像处理方法,其特征在于,该方法包括;
获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;
根据所述手势图像中手部位置以及手指指尖的方向确定指尖的位置。
12.根据权利要求11所述的方法,其特征在于,该方法还包括:
根据手指指尖的位置对用户的手势进行反馈。
13.根据权利要求11所述的方法,其特征在于,该方法还包括:
根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
14.根据权利要求13所述的方法,其特征在于,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
15.根据权利要求11所述的方法,其特征在于,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
16.根据权利要求11所述的方法,其特征在于,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
17.根据权利要求16所述的方法,其特征在于,所述夹角θ∈[-π,π]。
18.根据权利要求14所述的方法,其特征在于,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标;(wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
19.根据权利要求18所述的方法,其特征在于,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
20.根据权利要求14所述的方法,其特征在于,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合;(cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
21.根据权利要求20所述的方法,其特征在于,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度;Neg表示预测错误的手部位置以及手指指尖的方向集合。
22.根据权利要求11所述的方法,其特征在于,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
23.一种图像处理装置,其特征在于,包括:训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
24.根据权利要求23所述的装置,其特征在于,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
25.根据权利要求23所述的装置,其特征在于,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
26.根据权利要求23所述的装置,其特征在于,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
27.根据权利要求26所述的装置,其特征在于,所述夹角θ∈[-π,π]。
28.根据权利要求24所述的装置,其特征在于,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标;(wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
29.根据权利要求28所述的装置,其特征在于,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
30.根据权利要求24所述的装置,其特征在于,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合;(cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
31.根据权利要求23所述的装置,其特征在于,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度;Neg表示预测错误的手部位置以及手指指尖的方向集合。
32.根据权利要求24所述的装置,其特征在于,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
33.一种图像处理装置,其特征在于,包括:获取模块,用于获取手势图像,并利用训练完成的神经网络模型得到该手势图像中手部位置以及手指指尖的方向;
确定模块,用于根据所述手势图像中手部位置以及手指指尖的方向确定手指指尖的位置。
34.根据权利要求33所述的装置,其特征在于,该装置还包括:
反馈模块,用于根据手指指尖的位置对用户的手势进行反馈。
35.根据权利要求33所述的装置,其特征在于,该装置还包括:
训练模块,用于根据手势训练图像以及损失函数训练神经网络模型;所述神经网络模型输出手部位置以及手指指尖的方向,所述损失函数包括定位损失函数,定位损失函数包含手部位置以及手指指尖的方向。
36.根据权利要求35所述的装置,其特征在于,所述神经网络模型还输出手势类别和置信度,所述损失函数还包括类别损失函数。
37.根据权利要求33所述的装置,其特征在于,所述手势训练图像中,五个手指中仅有一个手指伸出并且其它手指收回。
38.根据权利要求33所述的装置,其特征在于,所述手势训练图像中手部位置为矩形,该矩形由矩形的左上角坐标和右下角坐标表示,所述手指指尖的方向为矩形中心和手指指尖的位置之间的线段和水平轴之间的夹角θ。
39.根据权利要求38所述的装置,其特征在于,所述夹角θ∈[-π,π]。
40.根据权利要求36所述的装置,其特征在于,所述定位损失函数为:
其中,λcoord表示匹配上手势训练图像中手部位置的权重因子;S2表示图像被分割为S*S个网格;B表示每个网格中预测的手部位置以及手指指尖的方向的数量;表示第i个网格中第j个预测的手部位置和手势训练图像的手部位置相匹配;(xi,yi)是第i个网格中第j个预测的手部位置的左上角坐标;是第i个网格中手势训练图像中手部位置的左上角的坐标;(wi,hi)是第i个网格中第j个预测的手部位置的宽和高;是第i个网格中手势训练图像中手部位置的宽和高;
θi表示第i个网格中第j个预测的手指指尖的方向,表示第i个网格中手势训练图像中手指指尖的方向。
41.根据权利要求37所述的装置,其特征在于,所述分类损失函数为:
其中,λnoobj表示没有匹配上手势训练图像中手部位置的权重因子;表示第i个网格中第j个预测的手部位置和手势训练图像中手部位置不匹配;pi(c)表示第i个网格中第j个预测的手势类别属于第c类别的条件概率;表示第i个网格中手势训练图像中的手势类别属于第c类别的条件概率;Ci表示第i个网格中第j个预测的手势类别的置信度;表示第i个网格中手势训练图像中手势类别的置信度;classes表示所有的类别。
42.根据权利要求36所述的装置,其特征在于,所述定位损失函数为:
其中:
其中,Pos表示预测正确的手部位置以及手指指尖的方向集合;(cx,cy,w,h,conθ,sinθ)表示手部位置的中心坐标、宽、高以及手指指尖方向角的余弦和正弦;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向;表示第i个预设的手部位置以及手指指尖的方向;
表示第i个预测的手部位置与手势训练图像中标记的类别为k的第j个手部位置相匹配,否则为0;表示预测的手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异;表示手势训练图像中标记的第j个手部位置以及手指指尖的方向与第i个预设的手部位置以及手指指尖的方向之间的差异。
43.根据权利要求42所述的装置,其特征在于,所述分类损失函数为:
表示第i个预测的手部位置与手势训练图像中标记的类别为p的第j个手部位置相匹配;表示第i个预测的手势类别属于第p类的置信度;Neg表示预测错误的手部位置以及手指指尖的方向集合。
44.根据权利要求33所述的装置,其特征在于,所述手势训练图像为被标注了手部位置以及手指指尖的方向的手势训练图像。
45.一种图像处理装置,其特征在于,包括:处理器和存储器,存储器上存储有程序;
所述处理器,用于执行所述程序以实现根据权利要求1或11所述的方法。
CN201811351196.3A 2018-11-13 2018-11-13 一种图像处理方法及装置 Pending CN109697407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811351196.3A CN109697407A (zh) 2018-11-13 2018-11-13 一种图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811351196.3A CN109697407A (zh) 2018-11-13 2018-11-13 一种图像处理方法及装置

Publications (1)

Publication Number Publication Date
CN109697407A true CN109697407A (zh) 2019-04-30

Family

ID=66230100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811351196.3A Pending CN109697407A (zh) 2018-11-13 2018-11-13 一种图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN109697407A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709310A (zh) * 2020-05-26 2020-09-25 重庆大学 一种基于深度学习的手势跟踪与识别方法
WO2020253475A1 (zh) * 2019-06-19 2020-12-24 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
CN113792651A (zh) * 2021-09-13 2021-12-14 广州广电运通金融电子股份有限公司 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014009561A2 (en) * 2012-07-13 2014-01-16 Softkinetic Software Method and system for human-to-computer gesture based simultaneous interactions using singular points of interest on a hand
CN104834922A (zh) * 2015-05-27 2015-08-12 电子科技大学 基于混合神经网络的手势识别方法
US20170017303A1 (en) * 2015-07-15 2017-01-19 Kabushiki Kaisha Toshiba Operation recognition device and operation recognition method
CN106372564A (zh) * 2015-07-23 2017-02-01 株式会社理光 手势识别方法和装置
CN107563494A (zh) * 2017-08-01 2018-01-09 华南理工大学 一种基于卷积神经网络和热图的第一视角指尖检测方法
CN107679512A (zh) * 2017-10-20 2018-02-09 济南大学 一种基于手势关键点的动态手势识别方法
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014009561A2 (en) * 2012-07-13 2014-01-16 Softkinetic Software Method and system for human-to-computer gesture based simultaneous interactions using singular points of interest on a hand
CN104834922A (zh) * 2015-05-27 2015-08-12 电子科技大学 基于混合神经网络的手势识别方法
US20170017303A1 (en) * 2015-07-15 2017-01-19 Kabushiki Kaisha Toshiba Operation recognition device and operation recognition method
CN106372564A (zh) * 2015-07-23 2017-02-01 株式会社理光 手势识别方法和装置
CN107563494A (zh) * 2017-08-01 2018-01-09 华南理工大学 一种基于卷积神经网络和热图的第一视角指尖检测方法
CN107679512A (zh) * 2017-10-20 2018-02-09 济南大学 一种基于手势关键点的动态手势识别方法
CN107808143A (zh) * 2017-11-10 2018-03-16 西安电子科技大学 基于计算机视觉的动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAGDISH LAL RAHEJA 等: "Fingertip Detection: A Fast Method with Natural Hand", 《INTERNATIONAL JOURNAL OF EMBEDDED SYSTEMS AND COMPUTER ENGINEERING》 *
代沅兴: "一种新的基于轮廓特征的指尖及手指指向检测方法", 《东北大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253475A1 (zh) * 2019-06-19 2020-12-24 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
CN111709310A (zh) * 2020-05-26 2020-09-25 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN111709310B (zh) * 2020-05-26 2024-02-02 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN113792651A (zh) * 2021-09-13 2021-12-14 广州广电运通金融电子股份有限公司 一种融合手势识别和指尖定位的手势交互方法、设备及介质
CN113792651B (zh) * 2021-09-13 2024-04-05 广州广电运通金融电子股份有限公司 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Similar Documents

Publication Publication Date Title
Valle et al. Multi-task head pose estimation in-the-wild
CN106407891B (zh) 基于卷积神经网络的目标匹配方法及装置
CN108509026B (zh) 基于增强交互方式的远程维修支持系统及方法
Vemulapalli et al. R3DG features: Relative 3D geometry-based skeletal representations for human action recognition
CN108304829A (zh) 人脸识别方法、装置及系统
CN109697407A (zh) 一种图像处理方法及装置
CN109657533A (zh) 行人重识别方法及相关产品
CN109948542A (zh) 手势识别方法、装置、电子设备和存储介质
US20170161903A1 (en) Method and apparatus for gesture recognition
WO2013095727A1 (en) Face feature vector construction
WO2022174605A1 (zh) 一种手势识别方法、手势识别装置及智能设备
CN107403167B (zh) 手势识别方法及装置
Diaz et al. Anthropomorphic features for on-line signatures
Huang et al. Gesture-based system for next generation natural and intuitive interfaces
CN107292295B (zh) 手势分割方法及装置
CN111126268A (zh) 关键点检测模型训练方法、装置、电子设备及存储介质
Zhang et al. Handsense: smart multimodal hand gesture recognition based on deep neural networks
WO2021082425A1 (zh) 一种掌纹验证方法、装置、计算机设备及可读存储介质
CN111103981B (zh) 控制指令生成方法及装置
CN115847422A (zh) 一种用于遥操作的姿态识别方法、装置及系统
WO2020199498A1 (zh) 指静脉比对方法、装置、计算机设备及存储介质
Abid et al. Dynamic sign language and voice recognition for smart home interactive application
WO2024045454A1 (zh) 目标识别方法、存储介质及设备
Tsai et al. Reverse time ordered stroke context for air-writing recognition
Chen et al. A fusion recognition method based on multifeature hidden markov model for dynamic hand gesture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20220208