CN112733823B - 手势姿态识别关键帧提取方法、装置及可读存储介质 - Google Patents

手势姿态识别关键帧提取方法、装置及可读存储介质 Download PDF

Info

Publication number
CN112733823B
CN112733823B CN202110345732.4A CN202110345732A CN112733823B CN 112733823 B CN112733823 B CN 112733823B CN 202110345732 A CN202110345732 A CN 202110345732A CN 112733823 B CN112733823 B CN 112733823B
Authority
CN
China
Prior art keywords
hand
image
intermediate image
moment
circumscribed rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110345732.4A
Other languages
English (en)
Other versions
CN112733823A (zh
Inventor
毛凤辉
郭振民
熊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Virtual Reality Institute Co Ltd
Original Assignee
Nanchang Virtual Reality Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Virtual Reality Institute Co Ltd filed Critical Nanchang Virtual Reality Institute Co Ltd
Priority to CN202110345732.4A priority Critical patent/CN112733823B/zh
Publication of CN112733823A publication Critical patent/CN112733823A/zh
Application granted granted Critical
Publication of CN112733823B publication Critical patent/CN112733823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手势姿态识别关键帧提取方法、装置及可读存储介质,该方法包括:通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;进行手部区域分割,以得到只有手部的中间图像;计算第一时刻内各帧中间图像的熵值以及第二时刻内各帧中间图像的熵值;将第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;根据手部重叠率确定关键帧的提取。本发明能够解决现有技术不能提取较清晰的图像作为预测的关键帧的问题。

Description

手势姿态识别关键帧提取方法、装置及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种手势姿态识别关键帧提取方法、装置及可读存储介质。
背景技术
手势识别是人机交互的重要手段,在VR(Virtual Reality,虚拟现实技术)人机交互中,用户可以通过虚拟手势识别,进行音量大小的调节或者其他虚拟移动按键的控制。
由于硬件处理速度和产品体验要求,手势姿态估计需要满足实时性要求,因此,并不是视频流中所有的图像都做3D手势姿态识别,而是抽取部分关键帧进行识别,现有的解决方案主要有固定时间提取图像帧、随机抽样或者提供帧差法提取等,这些方法不能提取较清晰的图像作为预测的关键帧,模糊图像直接影响到3D手势姿态识别的准确性。
发明内容
为此,本发明的一个目的在于提出一种手势姿态识别关键帧提取方法,以解决现有技术不能提取较清晰的图像作为预测的关键帧的问题。
本发明提供一种手势姿态识别关键帧提取方法,所述方法包括:
通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;
根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像;
计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻;
将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;
若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧。
根据本发明提供的手势姿态识别关键帧提取方法,具有以下有益效果:
(1)通过熵值计算,提取某一时间段内一帧清晰图像并且将重叠度高的帧丢弃,减少模型推理时间,提高手势识别实时性,增强客户体验效果;
(2)通过手部区域的熵值计算,在一个时间段内选择熵值最大的图像,图像熵能衡量图像的清晰度及其信息的丰富度,熵值越大说明手部越清晰,清晰的手部能够提升动态手势识别的准确性;
(3)本发明将手部皮肤检测和深度图像相结合,比仅仅通过皮肤检测能更准确的提取手部区域,抗干扰性更强。
另外,根据本发明上述的手势姿态识别关键帧提取方法,还可以具有如下附加的技术特征:
进一步地,通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息的步骤具体包括:
获取RGB摄像头采集到的含有手部的RGB图像;
将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高。
进一步地,根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像的步骤具体包括:
根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
进一步地,计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像的步骤具体包括:
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 465629DEST_PATH_IMAGE001
Figure 432579DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,Mpix表示灰度化后的中间图像中像素的总数。
进一步地,计算所述第一二值化图像和所述第二二值化图像的手部重叠率的步骤中,采用下式计算手部重叠率:
Figure 846242DEST_PATH_IMAGE003
其中,IOU表示第一二值化图像和所述第二二值化图像的手部重叠率,area(binary_t_1)表示所述第一二值化图像中像素值为255的像素面积,area(binary_t)表示所述第二二值化图像中像素值为255的像素面积,∩表示交集运算,∪表示并集运算。
本发明的另一个目的在于提出一种手势姿态识别关键帧提取装置,以解决现有技术不能提取较清晰的图像作为预测的关键帧的问题。
本发明提供一种手势姿态识别关键帧提取装置,包括:
检测模块,用于通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;
分割模块,用于根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像;
第一计算模块,用于计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻;
第二计算模块,用于将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;
保留提取模块,用于若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧。
根据本发明提供的手势姿态识别关键帧提取装置,具有以下有益效果:
(1)通过熵值计算,提取某一时间段内一帧清晰图像并且将重叠度高的帧丢弃,减少模型推理时间,提高手势识别实时性,增强客户体验效果;
(2)通过手部区域的熵值计算,在一个时间段内选择熵值最大的图像,图像熵能衡量图像的清晰度及其信息的丰富度,熵值越大说明手部越清晰,清晰的手部能够提升动态手势识别的准确性;
(3)本发明将手部皮肤检测和深度图像相结合,比仅仅通过皮肤检测能更准确的提取手部区域,抗干扰性更强。
另外,根据本发明上述的手势姿态识别关键帧提取装置,还可以具有如下附加的技术特征:
进一步地,所述检测模块具体用于:
获取RGB摄像头采集到的含有手部的RGB图像;
将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高。
进一步地,所述分割模块具体用于:
根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
进一步地,所述第一计算模块具体用于:
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 729885DEST_PATH_IMAGE001
Figure 203591DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,Mpix表示灰度化后的中间图像中像素的总数。
进一步地,所述第二计算模块具体用于采用下式计算手部重叠率:
Figure 907105DEST_PATH_IMAGE003
其中,IOU表示第一二值化图像和所述第二二值化图像的手部重叠率,area(binary_t_1)表示所述第一二值化图像中像素值为255的像素面积,area(binary_t)表示所述第二二值化图像中像素值为255的像素面积,∩表示交集运算,∪表示并集运算。
本发明还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一实施例的手势姿态识别关键帧提取方法的流程图;
图2是图1中步骤S101的详细流程图;
图3是图1中步骤S102的详细流程图;
图4是根据本发明另一实施例的手势姿态识别关键帧提取装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明一实施例提出的手势姿态识别关键帧提取方法,包括步骤S101~S105。
S101,通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息。
请参阅图2,步骤S101具体包括:
S1011,获取RGB摄像头采集到的含有手部的RGB图像;
S1012,将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
S1013,根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高。
其中,最小外接矩形左上角顶点坐标可以用(px, py)表示,矩形的宽和高分别用w和h表示,单位为pix。
S102,根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像。
其中,请参阅图3,步骤S102具体包括:
S1021,根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
其中,将手部区域最小外接矩形之外的像素值全部置为0也即是将非手部区域去背景。
S1022,将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
S1023,将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
其中,由于椭圆皮肤检测方法容易受光线干扰,仅仅通过皮肤检测不能较完整的检测到手部,因此,皮肤检测之后结合深度图,计算手部皮肤区域的平均深度dv(单位mm),计算公式如下:
Figure 344034DEST_PATH_IMAGE004
其中,de表示手部皮肤区域中每个像素对应的深度值,单位为mm,N表示手部皮肤像素点个数。
然后将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,即手部区域为彩色,其余区域为黑色(像素值为0)。
S103,计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻。
其中,第二时刻例如是t时刻,第一时刻例如是t-1时刻,即第一时刻是第二时刻的上一时刻。第一时刻和第二时刻都有多帧中间图像。
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 347762DEST_PATH_IMAGE001
Figure 726791DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,比如,灰度值为0的像素个数为M0,灰度值为1的像素个数为M1等,Mpix表示灰度化后的中间图像中像素的总数。
由此,可以得到第一时刻内各帧中间图像的熵值,然后将熵值从大到小排序,就能够得到第一时刻对应的熵值最大的中间图像。例如,第一时刻内一共有m帧中间图像,其中,第j帧中间图像的熵值最大。
同理,可以得到第二时刻内各帧中间图像的熵值,然后将熵值从大到小排序,就能够得到第二时刻对应的熵值最大的中间图像。例如,第二时刻内一共有n帧中间图像,其中,第k帧中间图像的熵值最大。
S104,将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率。
其中,将第一时刻对应的熵值最大的中间图像(即第j帧中间图像)二值化,以得到第一二值化图像binary_t_1,以及将第二时刻对应的熵值最大的中间图像(即第k帧中间图像)二值化,以得到第二二值化图像binary_t,然后计算第一二值化图像binary_t_1和第二二值化图像binary_t的手部重叠率,具体采用下式计算手部重叠率:
Figure 917601DEST_PATH_IMAGE003
其中,IOU表示第一二值化图像和所述第二二值化图像的手部重叠率,area(binary_t_1)表示所述第一二值化图像中像素值为255的像素面积,area(binary_t)表示所述第二二值化图像中像素值为255的像素面积,∩表示交集运算,∪表示并集运算,IOU的取值范围是0~1,IOU值越大,表示重叠度越高,移动越少。
S105,若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧。
其中,假如IOU>thr(thr表示重叠度阈值,比如取0.95),则认为手部没有运动或者轻微运动,丢弃第二时刻的关键帧,不重新推理手部姿态,保留第一时刻的关键帧,这里,第二时刻的关键帧指的是第二时刻熵值最大的帧,第一时刻的关键帧指的是第一时刻熵值最大的帧;否则(即IOU≤thr),提取第二时刻的关键帧,也即,将第k帧中间图像输入到手势识别模型中进行推理,得到新的手势姿态。
综上,根据本实施例提供的手势姿态识别关键帧提取方法,具有以下有益效果:
(1)通过熵值计算,提取某一时间段内一帧清晰图像并且将重叠度高的帧丢弃,减少模型推理时间,提高手势识别实时性,增强客户体验效果;
(2)通过手部区域的熵值计算,在一个时间段内选择熵值最大的图像,图像熵能衡量图像的清晰度及其信息的丰富度,熵值越大说明手部越清晰,清晰的手部能够提升动态手势识别的准确性;
(3)本发明将手部皮肤检测和深度图像相结合,比仅仅通过皮肤检测能更准确的提取手部区域,抗干扰性更强。
请参阅图4,本发明另一实施例提出的手势姿态识别关键帧提取装置,包括:
检测模块10,用于通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;
分割模块20,用于根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像;
第一计算模块30,用于计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻;
第二计算模块40,用于将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;
保留提取模块50,用于若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧。
本实施例中,所述检测模块10具体用于:
获取RGB摄像头采集到的含有手部的RGB图像;
将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高。
本实施例中,所述分割模块20具体用于:
根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
本实施例中,所述第一计算模块30具体用于:
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 407488DEST_PATH_IMAGE001
Figure 143DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,Mpix表示灰度化后的中间图像中像素的总数。
本实施例中,所述第二计算模块40具体用于采用下式计算手部重叠率:
Figure 563455DEST_PATH_IMAGE003
其中,IOU表示第一二值化图像和所述第二二值化图像的手部重叠率,area(binary_t_1)表示所述第一二值化图像中像素值为255的像素面积,area(binary_t)表示所述第二二值化图像中像素值为255的像素面积,∩表示交集运算,∪表示并集运算。
根据本实施例提供的手势姿态识别关键帧提取装置,具有以下有益效果:
(1)通过熵值计算,提取某一时间段内一帧清晰图像并且将重叠度高的帧丢弃,减少模型推理时间,提高手势识别实时性,增强客户体验效果;
(2)通过手部区域的熵值计算,在一个时间段内选择熵值最大的图像,图像熵能衡量图像的清晰度及其信息的丰富度,熵值越大说明手部越清晰,清晰的手部能够提升动态手势识别的准确性;
(3)本发明将手部皮肤检测和深度图像相结合,比仅仅通过皮肤检测能更准确的提取手部区域,抗干扰性更强。
此外,本发明的实施例还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
此外,本发明的实施例还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种手势姿态识别关键帧提取方法,其特征在于,所述方法包括:
通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;
根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像;
计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻;
将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;
若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧;
通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息的步骤具体包括:
获取RGB摄像头采集到的含有手部的RGB图像;
将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高;
根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像的步骤具体包括:
根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
2.根据权利要求1所述的手势姿态识别关键帧提取方法,其特征在于,计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像的步骤具体包括:
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 805503DEST_PATH_IMAGE001
Figure 300070DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,Mpix表示灰度化后的中间图像中像素的总数。
3.根据权利要求2所述的手势姿态识别关键帧提取方法,其特征在于,计算所述第一二值化图像和所述第二二值化图像的手部重叠率的步骤中,采用下式计算手部重叠率:
Figure 832682DEST_PATH_IMAGE003
其中,IOU表示第一二值化图像和所述第二二值化图像的手部重叠率,area(binary_t_1)表示所述第一二值化图像中像素值为255的像素面积,area(binary_t)表示所述第二二值化图像中像素值为255的像素面积,∩表示交集运算,∪表示并集运算。
4.一种手势姿态识别关键帧提取装置,其特征在于,应用于权利要求1-3任一项所述的手势姿态识别关键帧提取方法,所述装置包括:
检测模块,用于通过训练好的手部检测深度学习模型对目标图像进行手部目标检测,以得到手部区域最小外接矩形的图形信息;
分割模块,用于根据所述手部区域最小外接矩形的图形信息,并通过皮肤检测算法,结合深度图,进行手部区域分割,以得到只有手部的中间图像;
第一计算模块,用于计算第一时刻内各帧中间图像的熵值,以获取第一时刻对应的熵值最大的中间图像,以及计算第二时刻内各帧中间图像的熵值,以获取第二时刻对应的熵值最大的中间图像,所述第一时刻与所述第二时刻为相邻的时刻;
第二计算模块,用于将所述第一时刻对应的熵值最大的中间图像二值化,以得到第一二值化图像,以及将所述第二时刻对应的熵值最大的中间图像二值化,以得到第二二值化图像,并计算所述第一二值化图像和所述第二二值化图像的手部重叠率;
保留提取模块,用于若所述第一二值化图像和所述第二二值化图像的手部重叠率大于重叠度阈值,则丢弃所述第二时刻的关键帧,保留所述第一时刻的关键帧;若所述第一二值化图像和所述第二二值化图像的手部重叠率小于或等于重叠度阈值,则提取所述第二时刻的关键帧;
所述检测模块具体用于:
获取RGB摄像头采集到的含有手部的RGB图像;
将所述RGB图像输入到已经训练好的所述手部检测深度学习模型中进行手部目标检测;
根据所述手部目标检测的检测结果,得到手部区域最小外接矩形的图形信息,所述图形信息包括最小外接矩形左上角顶点坐标、矩形的宽和高;
所述分割模块具体用于:
根据所述手部区域最小外接矩形的图形信息,将所述手部区域最小外接矩形之外的像素值全部置为0,所述手部区域最小外接矩形内部的像素值不变,以得到去背景后的RGB图像;
将所述去背景后的RGB图像转换到YCrCb空间,通过椭圆皮肤检测方法,对最小外接矩形内的皮肤进行检测,得到手部皮肤区域,并结合对应的深度图,计算所述手部皮肤区域的平均深度值dv
将深度值小于dv-thrd或者大于dv+thrd的像素点去背景,得到只有手部的中间图像,其中,thrd表示深度阈值。
5.根据权利要求4所述的手势姿态识别关键帧提取装置,其特征在于,所述第一计算模块具体用于:
对于第一时刻内的任一帧中间图像,先将中间图像灰度化,然后采用下式计算中间图像的熵值:
Figure 958813DEST_PATH_IMAGE001
Figure 893271DEST_PATH_IMAGE002
其中,H表示中间图像的熵值,pi表示灰度化后的中间图像中像素的灰度值为i的概率,i的取值范围为0~255,Mi表示灰度化后的中间图像中像素的灰度值为i的数量,Mpix表示灰度化后的中间图像中像素的总数。
6.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任意一项所述的方法。
CN202110345732.4A 2021-03-31 2021-03-31 手势姿态识别关键帧提取方法、装置及可读存储介质 Active CN112733823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110345732.4A CN112733823B (zh) 2021-03-31 2021-03-31 手势姿态识别关键帧提取方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110345732.4A CN112733823B (zh) 2021-03-31 2021-03-31 手势姿态识别关键帧提取方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN112733823A CN112733823A (zh) 2021-04-30
CN112733823B true CN112733823B (zh) 2021-06-22

Family

ID=75596210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110345732.4A Active CN112733823B (zh) 2021-03-31 2021-03-31 手势姿态识别关键帧提取方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN112733823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731570A (zh) * 2021-08-27 2023-03-03 北京字跳网络技术有限公司 图像识别方法、装置和电子设备
CN114973293A (zh) * 2022-06-08 2022-08-30 Oppo广东移动通信有限公司 相似性判断方法、关键帧提取方法及装置、介质和设备
CN117373121A (zh) * 2023-10-16 2024-01-09 北京中科睿途科技有限公司 智能座舱环境下的手势交互方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527714A (zh) * 2016-11-07 2017-03-22 金陵科技学院 基于虚拟现实下的图像识别系统及其方法
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
CN109359538A (zh) * 2018-09-14 2019-02-19 广州杰赛科技股份有限公司 卷积神经网络的训练方法、手势识别方法、装置及设备
CN111046796A (zh) * 2019-12-12 2020-04-21 哈尔滨拓博科技有限公司 一种基于双摄像头深度信息的低成本空间手势控制方法及系统
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833285A (zh) * 2020-07-23 2020-10-27 Oppo广东移动通信有限公司 图像处理方法、图像处理装置及终端设备
CN112052823A (zh) * 2020-09-17 2020-12-08 江苏怀业信息技术股份有限公司 目标检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527714A (zh) * 2016-11-07 2017-03-22 金陵科技学院 基于虚拟现实下的图像识别系统及其方法
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
CN109359538A (zh) * 2018-09-14 2019-02-19 广州杰赛科技股份有限公司 卷积神经网络的训练方法、手势识别方法、装置及设备
CN111046796A (zh) * 2019-12-12 2020-04-21 哈尔滨拓博科技有限公司 一种基于双摄像头深度信息的低成本空间手势控制方法及系统
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hand segmentation under different viewpoints by combination of Mask R-CNN with tracking;Dinh-Ha Nguyen;《2018 5th Asian Conference on Defense Technology (ACDT)》;20181231;全文 *
基于姿态估计的驾驶员手部动作检测方法研究;刘唐波;《信号处理》;20191230;全文 *

Also Published As

Publication number Publication date
CN112733823A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112733823B (zh) 手势姿态识别关键帧提取方法、装置及可读存储介质
CN112506342B (zh) 基于动态手势识别的人机交互方法及系统
US20200290608A1 (en) Forward collision control method and apparatus, electronic device, program, and medium
WO2019114036A1 (zh) 人脸检测方法及装置、计算机装置和计算机可读存储介质
CN106648078B (zh) 应用于智能机器人的多模态交互方法及系统
US20120069168A1 (en) Gesture recognition system for tv control
JP4877374B2 (ja) 画像処理装置及びプログラム
JP2010525486A (ja) 画像分割及び画像強調
CN109584266B (zh) 一种目标检测方法及装置
US20130301911A1 (en) Apparatus and method for detecting body parts
CN112686231B (zh) 动态手势识别方法、装置、可读存储介质及计算机设备
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
Cheng et al. A hybrid background subtraction method with background and foreground candidates detection
CN114627561B (zh) 动态手势识别方法、装置、可读存储介质及电子设备
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
CN112990140B (zh) 手势轮廓提取方法、装置、可读存储介质及电子设备
Tang et al. SDRNet: An end-to-end shadow detection and removal network
US20230410561A1 (en) Method and apparatus for distinguishing different configuration states of an object based on an image representation of the object
CN111160173A (zh) 一种基于机器人的手势识别方法及机器人
CN114926631A (zh) 目标框生成方法、装置、非易失性存储介质及计算机设备
CN113657137A (zh) 数据处理方法、装置、电子设备及存储介质
US11275926B2 (en) Face tracking method and device
CN113379930B (zh) 通过人体曲线图进行的沉浸式交互方法、装置及存储介质
Wang et al. An improved hand detection by employing corner detector
CN117037049B (zh) 基于YOLOv5深度学习的图像内容检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant