CN115578787A - 一种基于神经网络的人体姿态识别跟踪方法 - Google Patents

一种基于神经网络的人体姿态识别跟踪方法 Download PDF

Info

Publication number
CN115578787A
CN115578787A CN202211106000.0A CN202211106000A CN115578787A CN 115578787 A CN115578787 A CN 115578787A CN 202211106000 A CN202211106000 A CN 202211106000A CN 115578787 A CN115578787 A CN 115578787A
Authority
CN
China
Prior art keywords
scene
key point
human body
body posture
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211106000.0A
Other languages
English (en)
Inventor
宫苏辉
庄之骏
冯振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
E Surfing Video Media Co Ltd
Original Assignee
E Surfing Video Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by E Surfing Video Media Co Ltd filed Critical E Surfing Video Media Co Ltd
Priority to CN202211106000.0A priority Critical patent/CN115578787A/zh
Publication of CN115578787A publication Critical patent/CN115578787A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于信息技术领域,具体公开了一种基于神经网络的人体姿态识别跟踪方法,本发明主要先设置预设场景参数,再通过摄像头或者视频文件获取包含人体动作的视频图像数据,对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据,使用自定义场景算法来判断结果数据是否符合场景预设,对关键点数据使用基于场景参数算法进行过滤,排除不符合预设场景的数据来稳定人体姿态的识别结果,使用Savitzky Golay对输出结果进行平滑过滤,通过Savitzky Golay滤波将存在抖动的骨架关节点数据进行平滑,经过处理后的人体姿态数据可以流畅且平滑地驱动虚拟人物模型。

Description

一种基于神经网络的人体姿态识别跟踪方法
技术领域
本发明属于信息技术领域,具体涉及一种基于神经网络的人体姿态识别跟踪方法。
背景技术
人体姿态识别是一种应用十分广泛的应用,可用于虚拟人物直播、无穿戴动作捕捉、动画制作、机器人驱动等场景。通过基于神经网络的算法对视频画面进行实时分析处理,识别画面中的人物姿态,使得人物姿态识别可以非常方便地应用于上述的场景。
通常基于神经网络的人体姿态识别算法,直接输出的骨架关节关键点数据经常存在抖动、位置错误的问题,如果直接用这种姿态识别数据来驱动人物模型,会导致模型的不和谐地抖动,甚至会做出不合逻辑的动作,故在对算法进行工程落地时需要对这些抖动错误问题进行纠正,降低了虚拟模型动作流畅度,因此我们提出一种基于神经网络的人体姿态识别跟踪方法来解决上述存在的问题,使其经过处理后的人体姿态数据可以流畅且平滑地驱动虚拟人物模型。
发明内容
本发明的目的在于提供一种基于神经网络的人体姿态识别跟踪方法,通过使用自定义场景算法来判断结果数据是否符合场景预设,通过排除不符合预设场景的数据来稳定人体姿态的识别结果,然后通过Savitzky Golay滤波将存在抖动的骨架关节点数据进行平滑,经过处理后的人体姿态数据可以流畅且平滑地驱动虚拟人物模型,以解决上述背景技术中提出的问题。
为实现上述目的,本发明采用了如下技术方案:
一种基于神经网络的人体姿态识别跟踪方法,包括如下步骤:
S1、系统初始化时,设置预设场景参数,所述场景参数包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
S2、通过摄像头或者视频文件获取包含人体动作的视频图像数据;
S3、对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据;
S4、对关键点数据使用基于场景参数算法进行过滤,主要包括计算关键点在图像中范围是否超过预设范围之外,关键点运动速度是否超过预设范围,关键点位置相对其它关键点是否符合逻辑;
S5、使用Savitzky Golay对输出结果进行平滑过滤,用于后续驱动虚拟人物模型。
优选的,步骤S1中所述预设场景参数是通过场景参数设置模块进行设置,所述场景参数设置模块通过对不同的业务需求来设置一套姿态关键点过滤的场景参数,若输出结果用来驱动单个虚拟人物模型,则场景参数中人物个数为1,运动场景、跳舞场景、关键点运动速度限制范围就高。
优选的,步骤S2中所述视频图像数据是通过BlazePose神经网络框架输出三十三个姿态关键点。
优选的,步骤S3中所述人体姿态关键点数据是通过人体姿态识别模块提取,所述人体姿态识别模块是基于BlazePose轻量级卷积神经网络框架,可在移动设备端运行,轻松实时识别跟踪人体姿态。
优选的,步骤S4中所述场景参数算法是根据预设场景参数通过场景算法处理模块对输出结果进行过滤,排除不符合预设场景条件的结果。
优选的,所述场景算法处理模块的具体处理流程如下:
A1、模块初始化时,获取预设的场景参数,包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
A2、获取姿态识别模块输出的关键点数据;
A3、计算每个关键点位置是否超出场景参数预设范围;
A4、根据关键点之前位置和当前位置,计算每个关键点移动速度,判断是否超出场景参数预设范围;
A5、计算各关键点与其它关键点距离,判断各距离的比例是否在场景参数预设范围;
A6、排除不符合场景参数的结果,输出符合的结果到后续平滑滤波模块。
优选的,所述场景算法处理模块对每帧图像输出的人体骨架关键点进行计算,参照预设场景参数对关键点进行过滤,排除不符合预设场景条件的关键点数据,如当前帧关键点数据被判定为不符合场景参数,则丢弃此帧数据,保持目标人体骨架位置为上帧位置。
优选的,所述关键点位置相对其它关键点是否符合逻辑的判断方法是计算每个关键点的x、y坐标是否在设置范围内,假设预置范围为(rx0,ry0,rx1,ry1),检测关键点坐标为(px,py)是否满足(rx0<=px<=rx1)&&(ry0<=py<=ry1),其中计算每个关键点的x、y坐标前需先定义左右肩正中心为整个人体骨架的中心点;
关键点在图像中范围是否超过预设范围是以左右两肩的距离为单位,计算每个关键点到中心点的距离与左右两肩关键点距离的比,定为关键点距离比值,判断比值是否超过预设最大值;
关键点运动速度是否超过预设范围是计算前后N帧的骨架中心点距离变化,并以此为单位计算每个关键点前后N帧的位置变化与单位的比值,定义为关键点移动速度,判断此速度是否超过预设值。
优选的,步骤S5中在平滑过滤时是通过平滑滤波模块进行过滤的,所述平滑滤波模块是通过Savitzky Golay低通滤波器过滤高频抖动,同时能够保留输出精度,且滤波实时性好,结果输出没有迟滞。
本发明提出的一种基于神经网络的人体姿态识别跟踪方法,与现有技术相比,具有以下优点:
1、本发明主要先设置预设场景参数,再通过摄像头或者视频文件获取包含人体动作的视频图像数据,对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据,使用自定义场景算法来判断结果数据是否符合场景预设,对关键点数据使用基于场景参数算法进行过滤,排除不符合预设场景的数据来稳定人体姿态的识别结果,使用Savitzky Golay对输出结果进行平滑过滤,通过Savitzky Golay滤波将存在抖动的骨架关节点数据进行平滑,经过处理后的人体姿态数据可以流畅且平滑地驱动虚拟人物模型。
附图说明
图1为本发明的流程框图;
图2为本发明的场景算法处理模块的处理流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-2所示的一种基于神经网络的人体姿态识别跟踪方法,包括如下步骤:
S1、系统初始化时,设置预设场景参数,所述场景参数包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
所述预设场景参数是通过场景参数设置模块进行设置,所述场景参数设置模块通过对不同的业务需求来设置一套姿态关键点过滤的场景参数,若输出结果用来驱动单个虚拟人物模型,则场景参数中人物个数为1,运动场景、跳舞场景、关键点运动速度限制范围就高。
S2、通过摄像头或者视频文件获取包含人体动作的视频图像数据;
所述视频图像数据是通过BlazePose神经网络框架输出三十三个姿态关键点。
S3、对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据;
所述人体姿态关键点数据是通过人体姿态识别模块提取,所述人体姿态识别模块是基于BlazePose轻量级卷积神经网络框架,可在移动设备端运行,轻松实时识别跟踪人体姿态。
S4、对关键点数据使用基于场景参数算法进行过滤,主要包括计算关键点在图像中范围是否超过预设范围之外,关键点运动速度是否超过预设范围,关键点位置相对其它关键点是否符合逻辑;
所述场景参数算法是根据预设场景参数通过场景算法处理模块对输出结果进行过滤,排除不符合预设场景条件的结果。
如图2所示,所述场景算法处理模块的具体处理流程如下:
A1、模块初始化时,获取预设的场景参数,包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
A2、获取姿态识别模块输出的关键点数据;
A3、计算每个关键点位置是否超出场景参数预设范围;
A4、根据关键点之前位置和当前位置,计算每个关键点移动速度,判断是否超出场景参数预设范围;
A5、计算各关键点与其它关键点距离,判断各距离的比例是否在场景参数预设范围;
A6、排除不符合场景参数的结果,输出符合的结果到后续平滑滤波模块。
所述场景算法处理模块对每帧图像输出的人体骨架关键点进行计算,参照预设场景参数对关键点进行过滤,排除不符合预设场景条件的关键点数据,如当前帧关键点数据被判定为不符合场景参数,则丢弃此帧数据,保持目标人体骨架位置为上帧位置。
所述关键点位置相对其它关键点是否符合逻辑的判断方法是计算每个关键点的x、y坐标是否在设置范围内,假设预置范围为(rx0,ry0,rx1,ry1),检测关键点坐标为(px,py)是否满足(rx0<=px<=rx1)&&(ry0<=py<=ry1),此参数用于限定舞台区域等。其中计算每个关键点的x、y坐标前需先定义左右肩正中心为整个人体骨架的中心点;
关键点在图像中范围是否超过预设范围是以左右两肩的距离为单位,计算每个关键点到中心点的距离与左右两肩关键点距离的比,定为关键点距离比值,判断比值是否超过预设最大值,其中预设最大值为预设测量人体舒展开时比例值最大值;
关键点运动速度是否超过预设范围是计算前后N帧的骨架中心点距离变化,并以此为单位计算每个关键点前后N帧的位置变化与单位的比值,定义为关键点移动速度,判断此速度是否超过预设值,其中预设值为预设测量人体各部件的最大移动速度。
S5、使用Savitzky Golay对输出结果进行平滑过滤,用于后续驱动虚拟人物模型,在平滑过滤时是通过平滑滤波模块进行过滤的,所述平滑滤波模块是通过Savitzky Golay低通滤波器过滤高频抖动,同时能够保留输出精度,且滤波实时性好,结果输出没有迟滞。
综上,系统初始化时,先设置预设场景参数,再通过摄像头或者视频文件获取包含人体动作的视频图像数据,对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据,使用自定义场景算法来判断结果数据是否符合场景预设,对关键点数据使用基于场景参数算法进行过滤,排除不符合预设场景的数据来稳定人体姿态的识别结果,使用Savitzky Golay对输出结果进行平滑过滤,通过Savitzky Golay滤波将存在抖动的骨架关节点数据进行平滑,经过处理后的人体姿态数据可以流畅且平滑地驱动虚拟人物模型。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于神经网络的人体姿态识别跟踪方法,其特征在于:包括如下步骤:
S1、系统初始化时,设置预设场景参数,所述场景参数包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
S2、通过摄像头或者视频文件获取包含人体动作的视频图像数据;
S3、对视频图像数据使用BlazePose卷积神经网络框架进行计算,提取人体姿态关键点数据;
S4、对关键点数据使用基于场景参数算法进行过滤,主要包括计算关键点在图像中范围是否超过预设范围之外,关键点运动速度是否超过预设范围,关键点位置相对其它关键点是否符合逻辑;
S5、使用Savitzky Golay对输出结果进行平滑过滤,用于后续驱动虚拟人物模型。
2.根据权利要求1所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:步骤S1中所述预设场景参数是通过场景参数设置模块进行设置,所述场景参数设置模块通过对不同的业务需求来设置一套姿态关键点过滤的场景参数,若输出结果用来驱动单个虚拟人物模型,则场景参数中人物个数为1,运动场景、跳舞场景、关键点运动速度限制范围就高。
3.根据权利要求1所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:步骤S2中所述视频图像数据是通过BlazePose神经网络框架输出三十三个姿态关键点。
4.根据权利要求1所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:步骤S3中所述人体姿态关键点数据是通过人体姿态识别模块提取,所述人体姿态识别模块是基于BlazePose轻量级卷积神经网络框架,可在移动设备端运行,轻松实时识别跟踪人体姿态。
5.根据权利要求1所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:步骤S4中所述场景参数算法是根据预设场景参数通过场景算法处理模块对输出结果进行过滤,排除不符合预设场景条件的结果。
6.根据权利要求5所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:所述场景算法处理模块的具体处理流程如下:
A1、模块初始化时,获取预设的场景参数,包括人物个数、骨架关键点运动速度、关键点运动范围、各关键点距离比例;
A2、获取姿态识别模块输出的关键点数据;
A3、计算每个关键点位置是否超出场景参数预设范围;
A4、根据关键点之前位置和当前位置,计算每个关键点移动速度,判断是否超出场景参数预设范围;
A5、计算各关键点与其它关键点距离,判断各距离的比例是否在场景参数预设范围;
A6、排除不符合场景参数的结果,输出符合的结果到后续平滑滤波模块。
7.根据权利要求6所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:所述场景算法处理模块对每帧图像输出的人体骨架关键点进行计算,参照预设场景参数对关键点进行过滤,排除不符合预设场景条件的关键点数据,如当前帧关键点数据被判定为不符合场景参数,则丢弃此帧数据,保持目标人体骨架位置为上帧位置。
8.根据权利要求7所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:所述关键点位置相对其它关键点是否符合逻辑的判断方法是计算每个关键点的x、y坐标是否在设置范围内,假设预置范围为(rx0,ry0,rx1,ry1),检测关键点坐标为(px,py)是否满足(rx0<=px<=rx1)&&(ry0<=py<=ry1),其中计算每个关键点的x、y坐标前需先定义左右肩正中心为整个人体骨架的中心点;
关键点在图像中范围是否超过预设范围是以左右两肩的距离为单位,计算每个关键点到中心点的距离与左右两肩关键点距离的比,定为关键点距离比值,判断比值是否超过预设最大值;
关键点运动速度是否超过预设范围是计算前后N帧的骨架中心点距离变化,并以此为单位计算每个关键点前后N帧的位置变化与单位的比值,定义为关键点移动速度,判断此速度是否超过预设值。
9.根据权利要求1所述的一种基于神经网络的人体姿态识别跟踪方法,其特征在于:步骤S5中在平滑过滤时是通过平滑滤波模块进行过滤的,所述平滑滤波模块是通过SavitzkyGolay低通滤波器过滤高频抖动,同时能够保留输出精度,且滤波实时性好,结果输出没有迟滞。
CN202211106000.0A 2022-09-09 2022-09-09 一种基于神经网络的人体姿态识别跟踪方法 Pending CN115578787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211106000.0A CN115578787A (zh) 2022-09-09 2022-09-09 一种基于神经网络的人体姿态识别跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211106000.0A CN115578787A (zh) 2022-09-09 2022-09-09 一种基于神经网络的人体姿态识别跟踪方法

Publications (1)

Publication Number Publication Date
CN115578787A true CN115578787A (zh) 2023-01-06

Family

ID=84580438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211106000.0A Pending CN115578787A (zh) 2022-09-09 2022-09-09 一种基于神经网络的人体姿态识别跟踪方法

Country Status (1)

Country Link
CN (1) CN115578787A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984972A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984972A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法
CN115984972B (zh) * 2023-03-20 2023-08-11 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法

Similar Documents

Publication Publication Date Title
US20200051250A1 (en) Target tracking method and device oriented to airborne-based monitoring scenarios
Jain et al. Real-time upper-body human pose estimation using a depth camera
US8000500B2 (en) System and method for analyzing of human motion based on silhouettes of real time video stream
CN105141807B (zh) 视频信号图像处理方法和装置
CN106875425A (zh) 一种基于深度学习的多目标追踪系统及实现方法
CN108229350A (zh) 一种机器人装置的面部检测、识别及跟踪方法和系统
WO2021213158A1 (zh) 一种智能视频会议终端的实时人脸摘要服务的方法及系统
CN107248174A (zh) 一种基于tld算法的目标跟踪方法
CN109816692A (zh) 一种基于Camshift算法的运动目标跟踪方法
CN110930411B (zh) 一种基于深度相机的人体分割方法及系统
CN111161325B (zh) 基于卡尔曼滤波与lstm的三维多目标跟踪方法
WO2009061283A2 (en) Human motion analysis system and method
CN115578787A (zh) 一种基于神经网络的人体姿态识别跟踪方法
CN103500335A (zh) 一种基于手势识别的照片拍摄与浏览的方法及其装置
CN108900775B (zh) 一种水下机器人实时电子稳像方法
CN106937059A (zh) 基于Kinect的影像合成方法和系统
CN106412441A (zh) 一种视频防抖控制方法以及终端
US20240161494A1 (en) Methods and devices for gesture recognition
WO2022006784A1 (zh) 人体骨架检测方法、装置、系统、设备及存储介质
CN116453198B (zh) 一种基于头部姿态差异的视线校准方法和装置
CN116503739A (zh) 一种机器人上下楼梯运动的场景识别方法及系统
CN113762129A (zh) 实时2d人体姿势估计系统中的姿势稳定系统和方法
CN110849317B (zh) 显示屏幕间夹角的确定方法、电子设备及存储介质
CN111265835A (zh) 一种投掷运动训练设备及其控制方法
CN110781712A (zh) 一种基于人脸检测与识别的人头空间定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination