CN113608663A - 一种基于深度学习和k-曲率法的指尖跟踪方法 - Google Patents

一种基于深度学习和k-曲率法的指尖跟踪方法 Download PDF

Info

Publication number
CN113608663A
CN113608663A CN202110783266.8A CN202110783266A CN113608663A CN 113608663 A CN113608663 A CN 113608663A CN 202110783266 A CN202110783266 A CN 202110783266A CN 113608663 A CN113608663 A CN 113608663A
Authority
CN
China
Prior art keywords
frame
fingertip
iou
detection
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110783266.8A
Other languages
English (en)
Other versions
CN113608663B (zh
Inventor
孟浩
王玥
田洋
邓艳琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110783266.8A priority Critical patent/CN113608663B/zh
Publication of CN113608663A publication Critical patent/CN113608663A/zh
Application granted granted Critical
Publication of CN113608663B publication Critical patent/CN113608663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习和K‑曲率法的指尖跟踪方法,首先利用YOLOv3网络模型训练预处理后的数据集,获取指尖检测模型;再利用摄像头获取视频流,输入检测模型并检测出检测框信息,初始化卡尔曼滤波器;然后利用卡尔曼滤波器得到预测框,计算出本帧检测框和预测框的IOU,设定IOU阈值,判断该IOU是否大于IOU阈值,若该IOU大于IOU阈值则更新卡尔曼滤波器得到指尖跟踪框;否则,利用K‑曲率法对指尖位置进行校正,并更新卡尔曼滤波器;最后设定一个时间阈值T‑max,在该时间阈值帧内未检测跟踪信息,则终止跟踪。本发明减弱了复杂环境对检测准确性的影响,提升了检测速度,增加了准确性和鲁棒性。

Description

一种基于深度学习和K-曲率法的指尖跟踪方法
技术领域
本发明属于目标检测及跟踪技术,具体涉及一种基于深度学习和K-曲率法的指尖跟踪方法。
背景技术
人手姿态检测与跟踪是目前人机交互与计算机视觉领域的一个热门方向,其子方向指尖检测与跟踪技术是人手姿态检测与跟踪技术的重要的组成部分,通过检测并跟踪指尖可以为空中手写、空中点击虚拟屏幕、手势识别、智慧教学等人机交互行为提供良好的基础。
在指尖检测与跟踪技术中,指尖检测的正确性及跟踪的快速性与准确性都至关重要;目前基于目标检测的算法主要分为传统检测算法和基于深度学习的检测算法,传统目标检测算法主要包括DPM(Deformable Parts Model)、选择性搜索等,这些方法在实际应用中都存在时间复杂度高、环境复杂导致鲁棒性不好,泛化性差等缺点,对于快速变化及发生短暂遮挡的指尖很难进行有效的检测与跟踪。
基于深度学习的指尖检测与跟踪方法可以很好的增加准确率及鲁棒性,主流的深度学习目标检测算法主要分为双阶段检测算法和单阶段检测算法,其中单阶段检测算法中的YOLO系列很好的兼顾了快速性和准确性;跟踪算法目前广泛应用的有基于滤波理论的卡尔曼滤波、粒子滤波等,但单纯的基于滤波的跟踪算法在实际应用中,对于被短暂遮挡的指尖的漏检率较高,在实时性上也有很大提升空间。
发明内容
针对上述现有技术存在问题,本发明要解决的技术问题是提供一种基于深度学习和K-曲率法的指尖跟踪方法,减弱复杂环境对检测准确性的影响,提升检测速度和准确性。
为解决上述技术问题,本发明的一种基于深度学习和K-曲率法的指尖跟踪方法,包括以下步骤:
S1:获取手部数据集,进行预处理;
S2:利用深度学习神经网络模型YOLOv3对数据集进行训练,获取指尖检测模型;
S3:获取视频流,将当前帧输入指尖检测模型中,利用Darknet53网络对当前帧的图像进行多尺度特征提取,检测出目标类别和检测框位置信息,并根据此信息初始化卡尔曼滤波器;
S4:读取下一帧图像,利用卡尔曼滤波器得到预测框,计算出本帧检测框和预测框的IOU,设定IOU阈值,判断该IOU是否大于IOU阈值,若该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤;
S5:用本帧匹配到的预测框去更新卡尔曼滤波器,并将状态更新值作为本帧的跟踪框输出,该帧跟踪完成,回到步骤S4;
S6:利用K-曲率法得到指尖点的位置信息;
S7:计算该指尖点与检测框的中心点的欧式距离,并设定一个阈值,当该距离小于阈值时,则初始化卡尔曼滤波器得到新预测框,并重新开始匹配;否则删除掉此帧的跟踪信息,读取下一帧;
S8:设定一个时间阈值T-max,在该时间阈值帧内未检测跟踪信息,则终止跟踪。
本发明还包括:
1.步骤S1包括以下步骤:
S11:在不同的场景、光照、人、指尖角度、手部数量条件下采集大量包含露出指尖的手部彩色图;
S12:利用数据增强的方法对手部彩色图像进行数据扩充;
S13:标记出目标指尖的区域框,添加标签信息,生成数据标签文件。
2.步骤2包括以下步骤:
S21:将手部数据集输入图片转化成416*416大小的网格图片,增加灰度条防止失真;
S22:将处理后的图片通过Darknet53特征提取网络降采样5次,生成多尺度的特征图;
S23:利用多尺度融合的方式在13*13、26*26、52*52三个尺度的特征图上分别进行卷积检测,得到3次检测结果,并进行非极大值抑制,获取最终结果;
S24:生成训练后的指尖检测模型。
3.步骤S4包括以下步骤:
S41:读取下一帧图像,利用卡尔曼滤波器得到所有预测到的指尖预测框;
S42:计算出本帧检测框和所有预测框的IOU;
S43:利用匈牙利算法得到IOU最大的唯一匹配;
S44:设定IOU阈值,判断该IOU是否大于IOU阈值;
S45:该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤。
4.步骤S41:读取下一帧图像,利用卡尔曼滤波器得到所有预测到的指尖预测框具体包括:
使用的卡尔曼滤波器包含七个状态变量,四个观测输入:
Figure BDA0003158039110000021
Figure BDA0003158039110000022
Figure BDA0003158039110000023
Figure BDA0003158039110000024
Figure BDA0003158039110000025
输出目标状态:
Figure BDA0003158039110000031
式中,
Figure BDA0003158039110000032
表示k时刻先验状态估计值,
Figure BDA0003158039110000033
分别表示k时刻、k-1时刻后验状态估计值,A表示状态转移矩阵,B表示可选的控制输入u∈Rl的增益,uk-1表示k-1时刻的控制增益,
Figure BDA0003158039110000034
表示k时刻的先验估计协方差,
Figure BDA0003158039110000035
分别表示k时刻、k-1时刻的后验估计协方差,Q表示过程激励噪声的协方差,Kk表示卡尔曼增益,Zk表示测量值,H表示测量矩阵,u表示当前帧目标中心的水平像素位置,v表示当前帧目标中心的垂直像素位置,x表示目标区域的面积,y表示目标区域的高宽比,
Figure BDA0003158039110000036
表示预测后的下一帧图像中目标中心的水平像素位置,
Figure BDA0003158039110000037
表示预测后的下一帧图像中目标中心的垂直像素位置,
Figure BDA0003158039110000038
表示预测后的下一帧图像中目标区域的面积,
Figure BDA0003158039110000039
表示预测后的下一帧图像中目标区域的高宽比。
5.步骤S6包括以下步骤:
S61:选择YCbCr颜色空间对本帧图像进行手部肤色提取:
Figure BDA00031580391100000310
式中,R表示红色通道,G表示绿色通道,B表示蓝色通道;Y为明亮度;Cb为RGB输入信号蓝色部分与RGB信号亮度值之间的差异;Cr为RGB输入信号红色部分与RGB信号亮度值之间的差异。
S62:求高斯模型的马氏距离:
Figure BDA00031580391100000311
式中,ms表示肤色单高斯模型的平均矢量,Cs为肤色单高斯模型的协方差矩阵,X为像素点。
S63:利用马氏距离分别给肤色和非肤色区域建立单高斯模型,然后求某一像素在肤色模型和非肤色模型下的马氏距离来判断是否属于肤色点,并分割出手部图像:
Figure BDA00031580391100000312
式中,τdiff为设定的阈值,mns表示非肤色单高斯模型的均值,Cns为高斯模型的协方差。
S64:对图像进行二值化处理和双边滤波处理;
S65:取轮廓点ki与其前面的第m个点ki+m和后面的第m个点ki-m,使用向量
Figure BDA0003158039110000041
和向量
Figure BDA0003158039110000042
的夹角余弦值作为点ki的曲率:
Figure BDA0003158039110000043
S66:检测具有局部最大K余弦的凸轮廓点作为指尖点:
di>(di-s+di+s)/2
式中,di表示从手掌心最大圆的质心到点的距离。
本发明的有益效果:本发明可应用在以下领域:1.空中手写;2.智慧教学;3.手势检测与跟踪;4.基于手部姿态的人机交互。本发明检测部分利用深度神经网络YOLOv3算法对指尖数据集进行训练并得到检测模型,减弱了复杂环境对检测准确性的影响,提升了检测速度,增加了准确性和鲁棒性;跟踪部分利用卡尔曼滤波、匈牙利算法对指尖进行跟踪,并加入K-曲率法对未跟踪到的指尖进行校正,提升了跟踪的实时性和准确性,减少了因指尖移动过快或出现遮挡等情况对跟踪有效性的影响。本发明提供的上述基于深度学习和K-曲率法的指尖跟踪方法,可以有效降低对摄像设备的要求,提升指尖跟踪的准确性及有效性,在实际应用中有较好的应用价值。
附图说明
图1为本发明的整体网络结构图;
图2为YOLOv3的网络结构图;
图3为IOU说明及不同IOU情况示例图;
图4为K-曲率法示意图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步说明。
参见图1,为本发明的整体网络结构图。首先利用YOLOv3网络模型训练预处理后的数据集,获取指尖检测模型;再利用摄像头获取视频流,输入检测模型并检测出检测框信息,初始化卡尔曼滤波器;然后利用卡尔曼滤波器得到预测框,计算出本帧检测框和预测框的IOU,设定IOU阈值,判断该IOU是否大于IOU阈值,若该IOU大于IOU阈值则更新卡尔曼滤波器得到指尖跟踪框;否则,利用K-曲率法对指尖位置进行校正,并更新卡尔曼滤波器;最后设定一个时间阈值T-max,在该时间阈值帧内未检测跟踪信息,则终止跟踪。
本发明的基于深度学习和K-曲率法的指尖跟踪方法,它包括以下步骤:
S1:获取手部数据集,进行预处理;
手部数据集需要含有大量不同状态及条件下的手部彩色图,并包含有每张图唯一对应的标签信息;
步骤S1包括以下子步骤:
S11:在不同的场景、光照、人、指尖角度、手部数量及遮挡条件下采集大量包含露出指尖的手部彩色图;
S12:利用旋转、变形、平移和添加噪声的方法分别以25%的概率对手部彩色图像进行数据扩充;
S13:标记出目标指尖的区域框,添加标签信息,生成数据标签文件。
S2:利用深度学习神经网络模型YOLOv3的数据集进行训练,获取指尖检测模型;
在目标检测与跟踪领域,目标检测的精确性和快速性至关重要,指尖检测模型的鲁棒性和准确性很大程度决定了后续跟踪部分的准确性;YOLOv3在前两个版本YOLOv1、YOLOv2的基础上进行了改良,在精度达到与R-CNN等two-stage系列算法匹敌的同时,极大的提高了检测速度;Yolov3的网络结构如图2所示;
步骤S2包括以下子步骤:
S21:将手部数据集输入图片转化成416*416大小的网格图片,增加灰度条防止失真;
S22:将处理后的图片通过Darknet53特征提取网络降采样5次,生成多尺度的特征图;Darknet53网络框架参数如表1所示:
表1 Darknet53网络框架参数
Figure BDA0003158039110000051
Figure BDA0003158039110000061
S23:利用多尺度融合的方式在13*13、26*26、52*52三个尺度的特征图上分别进行卷积检测,得到3次检测结果,并进行非极大值抑制,获取最终结果;
S24:生成训练后的指尖检测模型。
S3:利用摄像头获取实时视频流,将当前帧输入指尖监测模型中,利用Darknet53网络对当前帧的图像进行多尺度特征提取,检测出目标类别和检测框位置信息,并根据此信息初始化卡尔曼滤波器;
S4:利用卡尔曼滤波器得到预测框,计算出本帧的检测框和预测框的IOU,设定IOU阈值,判断该IOU是否大于IOU阈值,当该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤;
当某个检测框和所有已有目标在当前帧的预测框之间的IOU都小于了设定的阈值,则认为出现了两种情况:一是检测模型没有检测到指尖;二是出现了新的指尖或者出现误检。简单的利用IOU判断可能出现误检、漏检等情况出现,增加K-曲率法对指尖检测框进行监督和校正,有效的提高了跟踪的正确性。
如图3所示,为IOU的示意图;IOU每个检测框与本帧指尖的所有预测框指尖的交并比(IOU)阈值的大小决定了跟踪的准确性,本案例设置IOU阈值为0.7;
步骤S4包括以下子步骤:
S41:读取下一帧图像,利用卡尔曼滤波器得到所有预测到的指尖预测框;
使用的卡尔曼滤波器包含七个状态变量,四个观测输入:
Figure BDA0003158039110000062
Figure BDA0003158039110000063
Figure BDA0003158039110000064
Figure BDA0003158039110000065
Figure BDA0003158039110000066
输出目标状态:
Figure BDA0003158039110000071
式中,
Figure BDA0003158039110000072
表示k时刻先验状态估计值,
Figure BDA0003158039110000073
分别表示k时刻、k-1时刻后验状态估计值,A表示状态转移矩阵,B表示可选的控制输入u∈Rl的增益,uk-1表示k-1时刻的控制增益,
Figure BDA0003158039110000074
表示k时刻的先验估计协方差,
Figure BDA0003158039110000075
分别表示k时刻、k-1时刻的后验估计协方差,Q表示过程激励噪声的协方差,Kk表示卡尔曼增益,Zk表示测量值,H表示测量矩阵,u表示当前帧目标中心的水平像素位置,v表示当前帧目标中心的垂直像素位置,x表示目标区域的面积,y表示目标区域的高宽比,
Figure BDA0003158039110000076
表示预测后的下一帧图像中目标中心的水平像素位置,
Figure BDA0003158039110000077
表示预测后的下一帧图像中目标中心的垂直像素位置,
Figure BDA0003158039110000078
表示预测后的下一帧图像中目标区域的面积,
Figure BDA0003158039110000079
表示预测后的下一帧图像中目标区域的高宽比。
S42:计算出本帧检测框和所有预测框的IOU;
S43:利用匈牙利算法得到IOU最大的唯一匹配;
S44:设定IOU阈值,判断该IOU是否大于IOU阈值;
S45:该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤。
S5:用本帧匹配到的预测框去更新卡尔曼滤波器,并将状态更新值作为本帧的检测框输出,该帧跟踪完成,回到步骤S4;
S6:利用K-曲率法得到指尖点的位置信息;
在进行肤色区域分割时,由于YCbCr颜色空间对肤色具有很好的聚类效果,比较容易实现RGB到YCbCr颜色空间的转换,选择YCbCr颜色空间对手势区域提取;而得到的二值化手势图像带有大量噪声,因此选用双边滤波对其进行平滑处理;由于手的轮廓有明显的高低差,可以通过高值来检测指尖,而K-曲率法能有效的测量曲线点的夹角,因此选用K-曲率法检测出指尖点。如图4所示,为K-曲率法示意图;
步骤S6包括以下子步骤:
S61:选择YCbCr颜色空间对本帧图像进行手部肤色提取:
Figure BDA00031580391100000710
式中,R表示红色通道,G表示绿色通道,B表示蓝色通道;Y为明亮度;Cb为RGB输入信号蓝色部分与RGB信号亮度值之间的差异,取77<Cb<127;Cr为RGB输入信号红色部分与RGB信号亮度值之间的差异,取133<Cr<173。
S62:求高斯模型的马氏距离:
Figure BDA00031580391100000711
式中,ms表示肤色单高斯模型的平均矢量,Cs为肤色单高斯模型的协方差矩阵,X为像素点。
S63:利用马氏距离分别给肤色和非肤色建立单高斯模型,然后求某一像素在肤色模型和非肤色模型下的马氏距离来判断是否属于肤色点,并分割出手部图像:
Figure BDA0003158039110000081
式中,τdiff为设定的阈值,mns表示非肤色单高斯模型的均值,Cns为高斯模型的协方差。
S64:对图像进行二值化处理和双边滤波处理;
S65:取轮廓点ki与其前面的第m个点ki+m和后面的第m个点ki-m,使用向量
Figure BDA0003158039110000082
和向量
Figure BDA0003158039110000083
的夹角余弦值作为点ki的曲率:
Figure BDA0003158039110000084
式中,m的大小决定了指尖点计算的准确性,本案例中取m为5。
S66:检测具有局部最大K余弦的凸轮廓点作为指尖点:
di>(di-s+di+s)/2
式中,di表示从手掌心最大圆的质心到点的距离。
S7:分别计算该指尖点和检测框的中心点的欧式距离,并设定一个阈值,当该距离小于阈值时,则初始化卡尔曼滤波器得到新预测框重新开始匹配;否则删除掉此帧的跟踪信息,读取下一帧;
对于使用检测框信息初始化新目标的位置信息,速度设置为0,由于此时无法观测到速度,因此速度分量的协方差设置较大初始值,反应不确定性。新的追踪目标需要经历一段待定时间去和检测结果进行关联以累计新目标的置信度,这可以有效防止目标检测的虚警造成的新追踪目标误创建。
S8:设定一个时间阈值T-max,在该时间阈值帧内未检测跟踪信息,则终止跟踪;
如果连续T-max帧没有已有指尖的预测位置和检测框的IOU匹配,则认为指尖消失,终止轨迹。这可以防止跟踪器数量的无限增长,以及由于长时间的预测而导致的定位误差。本案例设置T-max为1。
上述实施例为本发明的最佳实施方式,但本发明的实施方式不受限于上述实施例,其他的任何不脱离本发明原理所作的诸如简化、改变、替换、组合的置换方式,都包含在本发明的保护范围之类。

Claims (6)

1.一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于,包括以下步骤:
S1:获取手部数据集,进行预处理;
S2:利用深度学习神经网络模型YOLOv3对数据集进行训练,获取指尖检测模型;
S3:获取视频流,将当前帧输入指尖检测模型中,利用Darknet53网络对当前帧的图像进行多尺度特征提取,检测出目标类别和检测框位置信息,并根据此信息初始化卡尔曼滤波器;
S4:读取下一帧图像,利用卡尔曼滤波器得到预测框,计算出本帧检测框和预测框的IOU,设定IOU阈值,判断该IOU是否大于IOU阈值,若该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤;
S5:用本帧匹配到的预测框去更新卡尔曼滤波器,并将状态更新值作为本帧的跟踪框输出,该帧跟踪完成,回到步骤S4;
S6:利用K-曲率法得到指尖点的位置信息;
S7:计算该指尖点与检测框的中心点的欧式距离,并设定一个阈值,当该距离小于阈值时,则初始化卡尔曼滤波器得到新预测框,并重新开始匹配;否则删除掉此帧的跟踪信息,读取下一帧;
S8:设定一个时间阈值T-max,在该时间阈值帧内未检测跟踪信息,则终止跟踪。
2.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于:所述步骤S1包括以下步骤:
S11:在不同的场景、光照、人、指尖角度、手部数量条件下采集大量包含露出指尖的手部彩色图;
S12:利用数据增强的方法对手部彩色图像进行数据扩充;
S13:标记出目标指尖的区域框,添加标签信息,生成数据标签文件。
3.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于:所述步骤2包括以下步骤:
S21:将手部数据集输入图片转化成416*416大小的网格图片,增加灰度条防止失真;
S22:将处理后的图片通过Darknet53特征提取网络降采样5次,生成多尺度的特征图;
S23:利用多尺度融合的方式在13*13、26*26、52*52三个尺度的特征图上分别进行卷积检测,得到3次检测结果,并进行非极大值抑制,获取最终结果;
S24:生成训练后的指尖检测模型。
4.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于:所述步骤S4包括以下步骤:
S41:读取下一帧图像,利用卡尔曼滤波器得到所有预测到的指尖预测框;
S42:计算出本帧检测框和所有预测框的IOU;
S43:利用匈牙利算法得到IOU最大的唯一匹配;
S44:设定IOU阈值,判断该IOU是否大于IOU阈值;
S45:该IOU大于IOU阈值则进行S5步骤,否则进行S6步骤。
5.根据权利要求4所述的一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于:所述步骤S41:读取下一帧图像,利用卡尔曼滤波器得到所有预测到的指尖预测框具体包括:
使用的卡尔曼滤波器包含七个状态变量,四个观测输入:
Figure FDA0003158039100000021
Figure FDA0003158039100000022
Figure FDA0003158039100000023
Figure FDA0003158039100000024
Figure FDA0003158039100000025
输出目标状态:
Figure FDA0003158039100000026
式中,
Figure FDA0003158039100000027
表示k时刻先验状态估计值,
Figure FDA0003158039100000028
分别表示k时刻、k-1时刻后验状态估计值,A表示状态转移矩阵,B表示可选的控制输入u∈Rl的增益,uk-1表示k-1时刻的控制增益,
Figure FDA0003158039100000029
表示k时刻的先验估计协方差,
Figure FDA00031580391000000210
分别表示k时刻、k-1时刻的后验估计协方差,Q表示过程激励噪声的协方差,Kk表示卡尔曼增益,Zk表示测量值,H表示测量矩阵,u表示当前帧目标中心的水平像素位置,v表示当前帧目标中心的垂直像素位置,x表示目标区域的面积,y表示目标区域的高宽比,
Figure FDA00031580391000000211
表示预测后的下一帧图像中目标中心的水平像素位置,
Figure FDA00031580391000000212
表示预测后的下一帧图像中目标中心的垂直像素位置,
Figure FDA00031580391000000213
表示预测后的下一帧图像中目标区域的面积,
Figure FDA00031580391000000214
表示预测后的下一帧图像中目标区域的高宽比。
6.根据权利要求1所述的一种基于深度学习和K-曲率法的指尖跟踪方法,其特征在于:所述步骤S6包括以下步骤:
S61:选择YCbCr颜色空间对本帧图像进行手部肤色提取:
Figure FDA00031580391000000215
式中,R表示红色通道,G表示绿色通道,B表示蓝色通道;Y为明亮度;Cb为RGB输入信号蓝色部分与RGB信号亮度值之间的差异;Cr为RGB输入信号红色部分与RGB信号亮度值之间的差异。
S62:求高斯模型的马氏距离:
Figure FDA0003158039100000031
式中,ms表示肤色单高斯模型的平均矢量,Cs为肤色单高斯模型的协方差矩阵,X为像素点。
S63:利用马氏距离分别给肤色和非肤色区域建立单高斯模型,然后求某一像素在肤色模型和非肤色模型下的马氏距离来判断是否属于肤色点,并分割出手部图像:
Figure FDA0003158039100000032
式中,τdiff为设定的阈值,mns表示非肤色单高斯模型的均值,Cns为高斯模型的协方差。
S64:对图像进行二值化处理和双边滤波处理;
S65:取轮廓点ki与其前面的第m个点ki+m和后面的第m个点ki-m,使用向量
Figure FDA0003158039100000033
和向量
Figure FDA0003158039100000034
的夹角余弦值作为点ki的曲率:
Figure FDA0003158039100000035
S66:检测具有局部最大K余弦的凸轮廓点作为指尖点:
di>(di-s+di+s)/2
式中,di表示从手掌心最大圆的质心到点的距离。
CN202110783266.8A 2021-07-12 2021-07-12 一种基于深度学习和k-曲率法的指尖跟踪方法 Active CN113608663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110783266.8A CN113608663B (zh) 2021-07-12 2021-07-12 一种基于深度学习和k-曲率法的指尖跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110783266.8A CN113608663B (zh) 2021-07-12 2021-07-12 一种基于深度学习和k-曲率法的指尖跟踪方法

Publications (2)

Publication Number Publication Date
CN113608663A true CN113608663A (zh) 2021-11-05
CN113608663B CN113608663B (zh) 2023-07-25

Family

ID=78337442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110783266.8A Active CN113608663B (zh) 2021-07-12 2021-07-12 一种基于深度学习和k-曲率法的指尖跟踪方法

Country Status (1)

Country Link
CN (1) CN113608663B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989332A (zh) * 2021-11-16 2022-01-28 苏州魔视智能科技有限公司 一种目标跟踪方法、装置、存储介质及电子设备
CN114972436A (zh) * 2022-06-13 2022-08-30 西安交通大学 一种基于时空域联合信息的运动磨粒检测跟踪方法及系统
CN115297263A (zh) * 2022-08-24 2022-11-04 广州方图科技有限公司 适用于拍立方的自动拍照控制方法、系统及拍立方
CN118711114A (zh) * 2024-08-30 2024-09-27 盛视科技股份有限公司 基于目标跟踪检测的托盘遗留物检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180195A1 (en) * 2013-09-06 2016-06-23 Toyota Jidosha Kabushiki Kaisha Augmenting Layer-Based Object Detection With Deep Convolutional Neural Networks
US20190347817A1 (en) * 2018-05-09 2019-11-14 Postureco, Inc. Method and system for postural analysis and measuring anatomical dimensions from a digital image using machine learning
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180195A1 (en) * 2013-09-06 2016-06-23 Toyota Jidosha Kabushiki Kaisha Augmenting Layer-Based Object Detection With Deep Convolutional Neural Networks
US20190347817A1 (en) * 2018-05-09 2019-11-14 Postureco, Inc. Method and system for postural analysis and measuring anatomical dimensions from a digital image using machine learning
EP3686772A1 (en) * 2019-01-25 2020-07-29 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李智娴;陈正鸣;: "1种基于Kinect深度图像的指尖检测与跟踪算法", 江苏农业科学 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989332A (zh) * 2021-11-16 2022-01-28 苏州魔视智能科技有限公司 一种目标跟踪方法、装置、存储介质及电子设备
CN114972436A (zh) * 2022-06-13 2022-08-30 西安交通大学 一种基于时空域联合信息的运动磨粒检测跟踪方法及系统
CN114972436B (zh) * 2022-06-13 2024-02-23 西安交通大学 一种基于时空域联合信息的运动磨粒检测跟踪方法及系统
CN115297263A (zh) * 2022-08-24 2022-11-04 广州方图科技有限公司 适用于拍立方的自动拍照控制方法、系统及拍立方
CN118711114A (zh) * 2024-08-30 2024-09-27 盛视科技股份有限公司 基于目标跟踪检测的托盘遗留物检测方法

Also Published As

Publication number Publication date
CN113608663B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Zhou et al. Deep continuous conditional random fields with asymmetric inter-object constraints for online multi-object tracking
CN113608663B (zh) 一种基于深度学习和k-曲率法的指尖跟踪方法
US11393103B2 (en) Target tracking method, device, system and non-transitory computer readable medium
CN108470332B (zh) 一种多目标跟踪方法及装置
CN110688965B (zh) 基于双目视觉的ipt模拟训练手势识别方法
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN111784747B (zh) 一种基于关键点检测和校正的车辆多目标跟踪系统及方法
CN109598684B (zh) 结合孪生网络的相关滤波跟踪方法
CN114187665B (zh) 一种基于人体骨架热图的多人步态识别方法
CN106709938B (zh) 基于改进tld的多目标追踪方法
Nallasivam et al. Moving human target detection and tracking in video frames
He et al. Fast online multi-pedestrian tracking via integrating motion model and deep appearance model
Awad et al. A unified system for segmentation and tracking of face and hands in sign language recognition
Chen et al. Multi-lane detection and tracking using temporal-spatial model and particle filtering
CN114926859A (zh) 一种结合头部跟踪的密集场景下行人多目标跟踪方法
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN114627339B (zh) 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质
CN109949344A (zh) 一种基于颜色概率目标建议窗口的核相关滤波跟踪方法
CN110826495A (zh) 基于面部朝向的身体左右肢体一致性跟踪判别方法及系统
CN114067359B (zh) 融合人体关键点与可见部位注意力特征的行人检测方法
CN112200076B (zh) 基于头部躯干特征进行多目标跟踪的方法
CN114897937A (zh) 一种基于视觉的场外施工深度学习实例分割跟踪方法
CN113743217A (zh) 一种基于骨骼点的端到端行人动作识别方法
Awal et al. A Particle Filter Based Visual Object Tracking: A Systematic Review of Current Trends and Research Challenges.
CN106447685A (zh) 一种红外跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant