CN114973399A - 一种基于关键点运动估计的人体连续姿态估计方法 - Google Patents

一种基于关键点运动估计的人体连续姿态估计方法 Download PDF

Info

Publication number
CN114973399A
CN114973399A CN202210418358.0A CN202210418358A CN114973399A CN 114973399 A CN114973399 A CN 114973399A CN 202210418358 A CN202210418358 A CN 202210418358A CN 114973399 A CN114973399 A CN 114973399A
Authority
CN
China
Prior art keywords
search
estimator
point
human body
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210418358.0A
Other languages
English (en)
Inventor
杨灿军
武鑫
涂章鹏
吴威涛
朱元超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210418358.0A priority Critical patent/CN114973399A/zh
Publication of CN114973399A publication Critical patent/CN114973399A/zh
Priority to US18/134,547 priority patent/US20230343140A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/238Analysis of motion using block-matching using non-full search, e.g. three-step search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关键点运动估计的人体连续姿态估计方法,将运动估计块匹配算法运用于人体关键点跟踪,从而获得人体连续姿态结果,同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。本发明可实现对视频流中人体连续姿态的估计,其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法,本发明所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点;相比完全依靠运动估计算法的姿态估计方法,本发明可修正积累误差,提高估计精度。

Description

一种基于关键点运动估计的人体连续姿态估计方法
技术领域
本发明涉及视频图像处理技术领域,特别是涉及一种基于关键点运动估计的人体连续姿态估计方法。
背景技术
近年来,图像/视频中的人体姿态估计一般使用深度神经网络来实现。然而,深度神经网络对计算机硬件的要求较高、对计算资源的消耗较大,虽然计算结果精度较高,但是计算速度较慢、实时性较差,这些缺陷限制了人体姿态估计的应用场合,使其推广难度增大。除此之外,使用深度神经网络估计视频中的人体姿态,本质上还是将视频拆分为每一帧图像分别进行计算,没有利用到视频中每一帧图像之间的人体姿态信息具有连续性这一先验知识,这样导致每一帧的信息是独立和割裂的,容易出现跳变。
基于以上深度神经网络提取人体姿态方案,有如下参考文献:
(1)授权公告号为CN110334607B,发明名称为“一种视频人体交互行为识别方法及系统”的发明专利中,使用YOLOv3网络进行行人检测,所述YOLOv3网络属于一种卷积神经网络。
(2)公开号为CN112686097A,发明名称为“一种人体图像关键点姿态估计方法”的发明专利申请中,通过训练获得能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型。
(3)公开号为CN110638461A,发明名称为“一种在电动病床上人体姿态识别方法及系统”的发明专利申请中,利用Stacked Hourglass算法识别人体姿态。Stacked Hourglass属于一种深度神经网络。
(4)公开号为CN110197123A,发明名称为“一种基于Mask R-CNN的人体姿态识别方法”的发明专利申请中,利用Mask R-CNN网络提取姿态特征。Mask R-CNN网络属于一种深度神经网络。
(5)公开号为CN109919122A,发明名称为“一种基于3D人体关键点的时序行为检测方法”的发明专利申请中,利用多层CNN网络提取人员目标边界框,通过过身体部位定位和关联程度分析获取2D关键点坐标,然后构造关键点回归网络,实现2D关键点到3D关键点的映射。所述CNN及关键点回归网络均属于深度神经网络。
在广义的图像处理与视频编码领域,有H.264、H.265等业内公认的编码标准和协议。在这些标准中,运动估计的最终目的是实现对视频中连续图片帧的压缩,它是通过将整幅图片分割为许多小区域(宏块)、然后对这些宏块进行最相似区域搜索估计来实现的。上述基于块匹配的运动估计算法称为块匹配算法。
发明内容
本发明针对现有技术中使用深度神经网络进行人体姿态估计时存在的上述不足,提出一种融合深度神经网络人体姿态估计算法与块匹配运动估计算法的人体连续姿态估计算法。所提出算法可以充分发挥两种技术路线的优势,同时规避和补齐其劣势,实现又快又准的人体连续姿态估计。
一种基于关键点运动估计的人体连续姿态估计方法,用于进行估计的系统包括两种估计器,
估计器1:预训练好的深度神经网络姿态估计器,
估计器2:基于视频编码H.264标准的运动估计器,
所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段:
第一阶段:系统开始运行后,对于首帧导入的视频帧,作为关键帧I0,使用估计器1对其中的人体姿态进行识别,从而获取初始的人体关键点坐标;在估计器1运算过程中,系统继续采集到多帧视频帧,暂存在计算机内存队列中;待估计器1运算结束后,将得到的关键点坐标数据和暂存的所有视频帧传入估计器2中依次运算,得到每个视频帧的人体关键点估计结果;
第二阶段:在第一阶段估计器1运算完毕后,系统紧接着采集到的下一帧视频帧I1,同时使用估计器1和估计器2对其进行运算,并在估计器1尚未运算完毕的过程中,对后续采集到的新视频帧继续采用估计器2进行实时运算;
第三阶段:待第二阶段中估计器1运算完毕后,比较估计器1和估计器2对视频帧I1中关键点的估计结果,如果二者所有的关键点坐标误差之和小于设定阈值ε,则对后面的视频帧重复第二阶段的步骤;如果二者误差大于该阈值,则以估计器1对视频帧I1关键点的估计结果为准,重新用估计器2更新在估计器1运算期间估计器2所得到的视频帧关键点估计结果,待这些结果更新完毕,再对后面的视频帧重复第二阶段的步骤。
第三阶段中设定阈值ε的大小可以根据需要进行设定,并没有统一标准。
优选的,估计器1采用由MPI-INF-3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。
优选的,估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块,宏块是以选定的关键点为中心的一小块矩形区域,块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域,在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。
更优选的,块匹配算法中匹配准则使用最小均方差函数(MSE)、最小平均绝对值误差(MAD)或最小差值和(SAD)准则,
定义分别如下:
Figure BDA0003605770650000031
Figure BDA0003605770650000032
Figure BDA0003605770650000033
其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢量,f(a)表示当前视频帧中a位置处的像素值,flast(a)表示前一视频帧中a位置处的像素值,即,如果f(p+v)表示当前视频帧中p+v位置处的像素值,flast(p)表示前一视频帧中p位置处的像素值。
更优选的,确定匹配准则后,还需要对实际的宏块进行匹配,块匹配算法在当前帧中选取将要进行匹配的宏块时,使用搜索模板来有选择性地确定待选取的宏块。进一步优选的,使用搜索模板来有选择性地确定待选取的宏块时,使用的运动估计搜索算法为三步搜索法、菱形搜索法或四步搜索法。
进一步优选的,三步搜索法步骤如下:
第一步:设定视频帧中完全包含宏块的一个较大区域为搜索窗口,宏块中心为搜索窗口的中心点,以该中心点为搜索起点,搜索步长从等于或略大于二分之一搜索窗口半径开始,在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标,选择指标最好的点作为下一次搜索的中心点;
第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点;
第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。
进一步优选的,菱形搜索法有大菱形和小菱形两种不同的匹配模板,大菱形有9个搜索点,小菱形只有5个搜索点,首先使用步长较大的大菱形搜索模板进行粗搜索,然后使用小菱形模板进行细搜索,菱形搜索法的搜索步骤如下:
第一步:以菱形为模板,计算中心点和其周围八个点共九个点的匹配指标值,比较得到指标最好的点;
第二步:如果搜索的中心点就是指标最好的点,则跳到第三步使用小菱形搜索模板,否则依旧回到第一步的搜索;
第三步:利用搜索点数只有5个点的小菱形搜索模板,计算这5个点的匹配指标值,取指标最好的点为最佳匹配点。
进一步优选的,四步搜索法步骤如下:
第一步:初始设定与三步搜索法相同,计算以关键点为中心的九个所选点的匹配指标值,若指标最好的点是中心点,则跳到第四步,否则进入第二步;
第二步:以上一步搜索到的像素点为中心点,保持选取点的间隔不变,继续计算新得到的九个点的匹配指标值,如果中心点就是指标最好的点,则跳到第四步,否则进入第三步;
第三步:若搜索到的中心点到达搜索窗口边缘,必须将选取点间隔缩小为3×3,则进入第四步,否则重复第二步;
第四步:将选取点间隔缩小为3×3,进行搜索,得到一个最佳匹配点。
优选的,人体关键点定义时,共定义21个关键点,分别为:
Figure BDA0003605770650000041
Figure BDA0003605770650000051
本发明的基本思路,是将运动估计块匹配算法运用于人体关键点跟踪,从而获得人体连续姿态结果,同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。对于人体关键点跟踪,只需要以选定的待跟踪关键点为中心,划分对应数量的宏块,而不需要像在图片压缩时一样将整幅图片全部划分为多个宏块,然后按照一定的策略通过搜索前后相邻的两个图片帧中宏块的变化情况来寻找对该宏块运动情况的最佳估计结果。
本发明可实现对视频流中人体连续姿态的估计,其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法,本发明所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点;相比完全依靠运动估计算法的姿态估计方法,本发明可修正积累误差,提高估计精度。
本申请技术方案所处理的视频流可以是来自于读取硬盘中存储的视频,也可以来自于摄像头采集的实时视频,并且,在处理来自于摄像头采集的实时视频时,由于对实时性的要求较高,更能凸显本发明的优势。
附图说明
图1为本发明中人体关键点位置示意图。
图2为本发明基于关键点运动估计的人体连续姿态估计方法的流程图。
图3为运动估计块匹配算法的示意图。
图4为三种经典运动估计算法的示意图,其中,(a)三步搜索,(b)四步搜索,(c)菱形搜索。
具体实施方式
在实施例中跟踪的人体关键点的定义如下,共定义21个关键点,每个关键点的名称及编号如下表1所示。每个关键点的位置如图1所示。
表1
Figure BDA0003605770650000052
Figure BDA0003605770650000061
本发明基于关键点运动估计的人体连续姿态估计方法的流程图如图2所示。
算法核心部分分为两个模块,分别是:预训练好的深度神经网络姿态估计器,即估计器(1),和基于视频编码H.264标准的运动估计器,即估计器(2)。
对于估计器(1),在实施例中采用由MPI-INF-3DHP数据集训练完成的VNect神经网络模型(其它可行的网络模型还有DeepPose、Stacked Hourglass、RMPE等)。估计器(1)在IntelCorei5-8400 CPU及NVIDIA GeForce GTX 1060 6GBGPU的环境下帧率可以达到30Hz左右,坐标平均误差82.5mm。
对于估计器(2),估计器(2)就是一个用块匹配算法检测关键点坐标变化的算法。
对于块匹配算法,如图3所示,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块。宏块是以选定的关键点为中心的一小块矩形区域。块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域。在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。
块匹配算法常用的匹配准则有最小均方差函数(MSE)、最小平均绝对值误差(MAD)、最小差值和(SAD)准则等,它们的定义分别如下:
Figure BDA0003605770650000062
Figure BDA0003605770650000063
Figure BDA0003605770650000064
其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢量(相对位置)。f(a)表示当前视频帧中a位置处的像素值,flast(a)表示前一视频帧中a位置处的像素值。在上面的几种匹配准则中,SAD准则的应用最为广泛。
确定匹配准则后,还需要对实际的宏块进行匹配。块匹配算法在当前帧中选取将要进行匹配的宏块时,如果依次匹配区域内所有宏块,最终可以找到区域内的一个全局最佳匹配宏块,但是这样做的计算量太大,不符合轻量化要求,在视频编码领域本身也很少采用这种方法。与此相对地,可以使用多种搜索模板来有选择性地确定待选取的宏块。较为经典的运动估计搜索算法有三步搜索法、菱形搜索法以及四步搜索法等。图4(图片引自:杨潇雨,“基于HEVC视频编码运动估计算法的优化,”硕士,南京邮电大学,2018.)为三种经典运动估计算法的示意图,其中,(a)三步搜索,(b)四步搜索,(c)菱形搜索。
三步搜索法步骤如下:
第一步:设定图像中完全包含宏块的一个较大区域为搜索窗口,宏块中心(即关键点的位置)为搜索窗口的中心点,以该中心点为搜索起点,搜索步长(即所挑选的待匹配宏块相互之间的中心距离)从等于或略大于二分之一搜索窗口半径开始。在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标(如SAD),选择指标最好(如SAD值最小)的点作为下一次搜索的中心点;
第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点。
第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。
四步搜索法步骤如下:
第一步:初始设定与三步搜索法相同,计算以关键点为中心的九个所选点的匹配指标值,若指标最好的点是中心点,则跳到第四步,否则进入第二步;
第二步:以上一步搜索到的像素点为中心点,保持选取点的间隔不变,继续计算新得到的九个点的匹配指标值,如果中心点就是指标最好的点,则跳到第四步,否则进入第三步;
第三步:若搜索到的中心点到达搜索窗口边缘,必须将选取点间隔缩小为3×3,则进入第四步,否则重复第二步;
第四步:将选取点间隔缩小为3×3,进行搜索,得到一个最佳匹配点。
菱形搜索也被称为钻石搜索,有大菱形和小菱形两种不同的匹配模板,大菱形有9个搜索点,小菱形只有5个搜索点。首先使用步长较大的大菱形搜索模板进行粗搜索,然后使用小菱形模板进行细搜索。菱形搜索法的搜索步骤如下:
第一步:以菱形为模板,计算中心点和其周围八个点共九个点的匹配指标值,比较得到指标最好的点;
第二步:如果搜索的中心点就是指标最好的点,则跳到第三步使用小菱形搜索模板,否则依旧回到第一步的搜索;
第三步:利用搜索点数只有5个点的小菱形搜索模板,计算这5个点的匹配指标值,取指标最好的点为最佳匹配点。
本申请实施例中优选采用基于最小差和准则的三步搜索法。
估计器(2)计算简单,运算速度非常快,在Intel Core i5-8400 CPU及NVIDIAGeForce GTX 1060 6GB GPU的环境下帧率可以达到50000Hz左右,远远超出视频流实时处理的帧率要求,但是该估计器随着时间的推移可能会出现严重的漂移现象,逐渐偏离和丢失跟踪目标。
所处理的视频流可以来自于按帧读取的存储设备中存储的视频,也可以来自于摄像头采集的实时视频(此情况下对实时性的要求较高,更能凸显本发明的优势)。
算法流程分为以下三个阶段。
第一阶段:
程序开始运行后,对于首帧导入的视频帧,作为关键帧I0,使用估计器(1)对其中的人体姿态进行识别,从而获取初始的人体关键点坐标。估计器(1)运算耗时较长,在此过程中系统会继续采集到多帧视频帧,暂存在计算机内存队列中。待估计器(1)运算结束后,将得到的关键点坐标数据和暂存的所有视频帧传入估计器(2)中依次运算,得到每个视频帧的人体关键点估计结果。估计器(2)运算耗时很短,可认为是实时完成。
第二阶段:
对于上述估计器(1)运算完毕后,系统紧接着采集到的下一帧视频帧I1,同时使用估计器(1)和估计器(2)对其进行运算,并在估计器(1)尚未运算完毕的过程中,对后续采集到的新视频帧继续采用估计器(2)进行实时运算。
第三阶段:
待第二阶段中估计器(1)运算完毕后,比较估计器(1)和估计器(2)对I1中关键点的估计结果,如果二者所有的关键点坐标误差之和小于设定阈值ε,则对后面的视频帧重复第二阶段的步骤;如果二者误差大于该阈值,则以估计器(1)对I1关键点的估计结果为准,重新用估计器(2)更新在估计器(1)运算期间估计器(2)所得到的视频帧关键点估计结果,待这些结果更新完毕,再对后面的视频帧重复第二阶段的步骤。同样地,估计器(2)运算耗时很短,可以认为是实时完成。

Claims (10)

1.一种基于关键点运动估计的人体连续姿态估计方法,其特征在于,用于进行估计的系统包括两种估计器,
估计器1:预训练好的深度神经网络姿态估计器,
估计器2:基于视频编码H.264标准的运动估计器,
所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段:
第一阶段:系统开始运行后,对于首帧导入的视频帧,作为关键帧I0,使用估计器1对其中的人体姿态进行识别,从而获取初始的人体关键点坐标;在估计器1运算过程中,系统继续采集到多帧视频帧,暂存在计算机内存队列中;待估计器1运算结束后,将得到的关键点坐标数据和暂存的所有视频帧传入估计器2中依次运算,得到每个视频帧的人体关键点估计结果;
第二阶段:在第一阶段估计器1运算完毕后,系统紧接着采集到的下一帧视频帧I1,同时使用估计器1和估计器2对其进行运算,并在估计器1尚未运算完毕的过程中,对后续采集到的新视频帧继续采用估计器2进行实时运算;
第三阶段:待第二阶段中估计器1运算完毕后,比较估计器1和估计器2对视频帧I1中关键点的估计结果,如果二者所有的关键点坐标误差之和小于设定阈值ε,则对后面的视频帧重复第二阶段的步骤;如果二者误差大于该阈值,则以估计器1对视频帧I1关键点的估计结果为准,重新用估计器2更新在估计器1运算期间估计器2所得到的视频帧关键点估计结果,待这些结果更新完毕,再对后面的视频帧重复第二阶段的步骤。
2.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,估计器1采用由MPI-INF-3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。
3.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块,宏块是以选定的关键点为中心的一小块矩形区域,块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域,在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。
4.根据权利要求3所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,块匹配算法中匹配准则使用最小均方差函数MSE、最小平均绝对值误差MAD或最小差值和SAD准则,
定义分别如下:
Figure FDA0003605770640000021
Figure FDA0003605770640000022
Figure FDA0003605770640000023
其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢量,f(a)表示当前视频帧中a位置处的像素值,flast(a)表示前一视频帧中a位置处的像素值。
5.根据权利要求4所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,确定匹配准则后,还需要对实际的宏块进行匹配,块匹配算法在当前帧中选取将要进行匹配的宏块时,使用搜索模板来有选择性地确定待选取的宏块。
6.根据权利要求5所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,使用搜索模板来有选择性地确定待选取的宏块时,使用的运动估计搜索算法为三步搜索法、菱形搜索法或四步搜索法。
7.根据权利要求6所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,三步搜索法步骤如下:
第一步:设定视频帧中完全包含宏块的一个较大区域为搜索窗口,宏块中心为搜索窗口的中心点,以该中心点为搜索起点,搜索步长从等于或略大于二分之一搜索窗口半径开始,在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标,选择指标最好的点作为下一次搜索的中心点;
第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点;
第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。
8.根据权利要求6所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,菱形搜索法有大菱形和小菱形两种不同的匹配模板,大菱形有9个搜索点,小菱形只有5个搜索点,首先使用步长较大的大菱形搜索模板进行粗搜索,然后使用小菱形模板进行细搜索,菱形搜索法的搜索步骤如下:
第一步:以菱形为模板,计算中心点和其周围八个点共九个点的匹配指标值,比较得到指标最好的点;
第二步:如果搜索的中心点就是指标最好的点,则跳到第三步使用小菱形搜索模板,否则依旧回到第一步的搜索;
第三步:利用搜索点数只有5个点的小菱形搜索模板,计算这5个点的匹配指标值,取指标最好的点为最佳匹配点。
9.根据权利要求6所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,四步搜索法步骤如下:
第一步:初始设定与三步搜索法相同,计算以关键点为中心的九个所选点的匹配指标值,若指标最好的点是中心点,则跳到第四步,否则进入第二步;
第二步:以上一步搜索到的像素点为中心点,保持选取点的间隔不变,继续计算新得到的九个点的匹配指标值,如果中心点就是指标最好的点,则跳到第四步,否则进入第三步;
第三步:若搜索到的中心点到达搜索窗口边缘,必须将选取点间隔缩小为3×3,则进入第四步,否则重复第二步;
第四步:将选取点间隔缩小为3×3,进行搜索,得到一个最佳匹配点。
10.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,人体关键点定义时,共定义21个关键点,分别为:
Figure FDA0003605770640000031
Figure FDA0003605770640000041
CN202210418358.0A 2022-04-20 2022-04-20 一种基于关键点运动估计的人体连续姿态估计方法 Pending CN114973399A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210418358.0A CN114973399A (zh) 2022-04-20 2022-04-20 一种基于关键点运动估计的人体连续姿态估计方法
US18/134,547 US20230343140A1 (en) 2022-04-20 2023-04-13 Joint motion estimation based method for estimating continuous human postures

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210418358.0A CN114973399A (zh) 2022-04-20 2022-04-20 一种基于关键点运动估计的人体连续姿态估计方法

Publications (1)

Publication Number Publication Date
CN114973399A true CN114973399A (zh) 2022-08-30

Family

ID=82976812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210418358.0A Pending CN114973399A (zh) 2022-04-20 2022-04-20 一种基于关键点运动估计的人体连续姿态估计方法

Country Status (2)

Country Link
US (1) US20230343140A1 (zh)
CN (1) CN114973399A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880783A (zh) * 2023-02-21 2023-03-31 山东泰合心康医疗科技有限公司 用于儿科保健的儿童运动姿态识别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197507B (zh) * 2023-11-07 2024-02-09 北京闪马智建科技有限公司 图像块的确定方法及装置、存储介质及电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880783A (zh) * 2023-02-21 2023-03-31 山东泰合心康医疗科技有限公司 用于儿科保健的儿童运动姿态识别方法
CN115880783B (zh) * 2023-02-21 2023-05-05 山东泰合心康医疗科技有限公司 用于儿科保健的儿童运动姿态识别方法

Also Published As

Publication number Publication date
US20230343140A1 (en) 2023-10-26

Similar Documents

Publication Publication Date Title
US20220366576A1 (en) Method for target tracking, electronic device, and storage medium
CN114973399A (zh) 一种基于关键点运动估计的人体连续姿态估计方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
EP1542155A1 (en) Object detection
CN110796010A (zh) 一种结合光流法和卡尔曼滤波的视频稳像方法
CN112163516A (zh) 跳绳计数的方法、装置及计算机存储介质
CN109614933B (zh) 一种基于确定性拟合的运动分割方法
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
CN114240997B (zh) 一种智慧楼宇在线跨摄像头多目标追踪方法
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
CN105930790A (zh) 基于核稀疏编码的人体行为识别方法
CN112949751B (zh) 车辆图像聚类及轨迹还原方法
CN110968711B (zh) 一种基于序列图像特征的自主无人系统位置识别定位方法
CN111353448A (zh) 基于相关性聚类和时空约束的行人多目标跟踪方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN111160099B (zh) 一种视频图像目标的智能化分割方法
CN113129332A (zh) 执行目标对象跟踪的方法和装置
CN116188555A (zh) 一种基于深度网络与运动信息的单目室内深度估计算法
CN111160115A (zh) 一种基于孪生双流3d卷积神经网络的视频行人再识别方法
CN116051601A (zh) 一种深度时空关联的视频目标跟踪方法及系统
CN115908485A (zh) 一种面向太空中非合作目标的实时位姿跟踪方法及其系统
CN115880332A (zh) 一种低空飞行器视角的目标跟踪方法
CN111292357B (zh) 一种基于相关滤波的视频帧间快速运动估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination