CN113255429A - 一种视频中人体姿态估计与跟踪方法及系统 - Google Patents

一种视频中人体姿态估计与跟踪方法及系统 Download PDF

Info

Publication number
CN113255429A
CN113255429A CN202110295774.1A CN202110295774A CN113255429A CN 113255429 A CN113255429 A CN 113255429A CN 202110295774 A CN202110295774 A CN 202110295774A CN 113255429 A CN113255429 A CN 113255429A
Authority
CN
China
Prior art keywords
human body
estimation
frame
data
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110295774.1A
Other languages
English (en)
Other versions
CN113255429B (zh
Inventor
王海滨
纪文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Genjian Intelligent Technology Co ltd
Original Assignee
Qingdao Genjian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Genjian Intelligent Technology Co ltd filed Critical Qingdao Genjian Intelligent Technology Co ltd
Priority to CN202110295774.1A priority Critical patent/CN113255429B/zh
Publication of CN113255429A publication Critical patent/CN113255429A/zh
Application granted granted Critical
Publication of CN113255429B publication Critical patent/CN113255429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本公开提供了一种视频中人体姿态估计与跟踪方法及系统,包括:采集人体姿态估计数据集中的视频数据;通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;将N帧估计数据以及其中相邻帧间光流估计结果,共N+(N‑1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据;可对视频中人体快速运动时造成图像模糊姿态估计不准确进行有效改善,提高视频中人体姿态估计与跟踪准确度。

Description

一种视频中人体姿态估计与跟踪方法及系统
技术领域
本公开涉及图像处理与计算机视觉领域,具体涉及一种结合光流估计的视频中人体姿态估计与跟踪方法模型。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成现有技术。
近年来,基于深度学习的人体姿态估计基础上,多人姿态估计、人体行为识别等课题的研究逐渐成为研究热点,特别是在虚拟现实、视频分析、身份鉴别、体感交互、人机互动、智能监控、医疗诊断等领域中有广泛的应用前景,深度学习方法已经成为人们日常使用的工具。随着计算机视觉学界从图像理解转向视频理解,互联网用户从发布图片朋友圈转向发布短视频,人们对视频的研究和应用的关注不断增强,光流估计作为视频理解的隐形战士,能够为我们提供新的思路。
虽然,目前对静止图像人体姿态估计的研究取得了很大的成功,但是对于视频类的人体姿态跟踪仍然是一个具有挑战性的课题。对基于结合光流估计算法的视频中人体姿态跟踪方法研究还比较少,大多是研究人体动作识别,并进行分类,很少考虑光流估计算法如何为2D人体姿态跟踪提供指导帮助。然而,结合光流估计的视频中人体姿态跟踪方法研究不仅涉及深度学习、基于图像人体姿态估计等问题,而且所采用的光流估计算法进行每一帧图像之间运动量估计过程以及将二者相结合的模型较为复杂,因此综合考虑这部分研究的文献较少。
综上所述,人体关节点跟踪作为一个新兴的研究领域,如何实现高精度的估计人体关节轨迹,完成姿态估计与追踪是急需要解决的技术问题。
发明内容
为了解决上述问题,本公开提出了一种视频中人体姿态估计与跟踪方法及系统,具体提供了一种结合光流估计的视频中人体姿态估计与跟踪方法模型以准确估计人体关节点轨迹,完成姿态估计与跟踪。
第一方面,本公开提供了一种视频中人体姿态估计与跟踪方法,包括:
采集人体姿态估计数据集中的视频数据;
通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。
第二方面,本公开提供了一种视频中人体姿态估计与跟踪系统,包括:
数据采集模块,被配置为采集人体姿态估计数据集中的视频数据;
数据处理模块,被配置为通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
数据修正模块,被配置为将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。
第三方面,本公开提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如第一方面所述的视频中人体姿态估计与跟踪方法。
第四方面,本公开提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如第一方面所述的视频中人体姿态估计与跟踪方法。
与现有技术对比,本公开具备以下有益效果:
1、本公开首先基于通用的人体姿态估计CNN网络模型分别对视频中每帧图像进行人体姿态估计,并基于通用的光流估计算法计算相邻两帧间运动矢量,然后将N帧姿态估计以及其中相邻帧间光流估计结果,共N+(N-1)个参数作为输入到改进的CNN网络模型中进行人体姿态跟踪训练,最后通过添加损失函数对相同帧进行矫正,保证每段视频序列帧输入中的重叠帧输出结果一致。通过实施本发明,可对视频中人体快速运动时造成图像模糊姿态估计不准确进行有效改善,提高视频中人体姿态估计与跟踪准确度。
2、本公开基于图像的人体姿态估计方法,结合光流估计算法,通过损失函数对重叠帧进行优化与修正,使得视频中人体姿态估计更为准确,解决了对视频中如何人体姿态进行估计与跟踪的问题,实现结合光流估计的视频中人体姿态估计与跟踪方法模型以准确估计人体关节点轨迹,完成姿态估计与跟踪。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本公开的视频中人体姿态估计与跟踪方法的具体流程图;
图2是本公开的基于VGGNet网络模型进行人体姿态估计示意图;
图3是本公开的结合光流估计的人体姿态跟踪修正示意图;
图4是本公开的基于损失函数约束的重叠帧修正示意图;
图5是本公开的视频中人体姿态估计与跟踪方法的流程图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
如图1所示,一种视频中人体姿态估计与跟踪方法,包括:
步骤(1)采集人体姿态估计数据集中的视频数据;
步骤(2)通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
步骤(3)将N帧估计数据以及其中相邻帧间光流估计结果,共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。其中N≧2。
进一步的,还包括对视频数据进行预处理,将视频数据进行预处理获取单帧图像,并对单帧图像进行图像预处理获得预处理后的每帧图像;
作为其中一种实施方式,视频数据采集并进行预处理,将视频数据转换为帧序列的形式,得到图像序列并进行图像预处理,进行取均值、归一化、缩放和裁剪。
具体的,选取上述数据集中的M个视频数据进行预处理,以第i个视频为例,通过OpenCV获取输入地包含人体姿态信息的视频流,首先将其转换为帧序列{1,......,t-1,t,t+1,......,n},共n帧,获取单帧图像,以第t-1帧、第t帧、第t+1帧为例(t≧2),对获取图像帧进行图像预处理,包括:取均值,归一化,缩放、裁剪等方式。其中,所述图像为3通道的RBG格式的图像。
进一步的,所述采集人体姿态估计数据集中的视频数据具体的,以人体姿态估计数据集PoseTrack为例,共1356个视频序列,属于多人类型,包含关节点个数15,46K带注释的视频帧,276K人体姿势注释,选取上述数据集中的M个视频数据进行预处理。
进一步的,通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,包括将某帧图像压缩到对应CNN网络模型的输入尺寸,调用目标检测获得该帧中各个目标的检测框(Bounding-Box),如行人个体以及人体各部位候选区域,利用人体姿态估计深度学习模型将该帧中所有人体的关节点检测出来并定位,如头部、左手、右膝等,从RGB图像估计每个关节的2D姿势(x,y)坐标,生成姿态估计数据。
具体的,基于VGGNet-19网络模型进行人体姿态估计阶段:如图2所示,首先选用第i个视频中第t-1帧、第t帧,经过步骤1中图像预处理将图像裁剪到VGGNet-19网络模型的输入尺寸224x224像素大小,VGGNet-19的前10层用于为输入图像创建特征映射,经过卷积网络提取特征,得到一组特征图后,分为两阶段,第一个阶段的输入数据为VGGNet-19前10层得到的特征,而随后阶段的输入数据为前一个阶段的输出和特征。每个阶段用一个双分支来联合预测身体部位,第一个分支用来提取部位置信度图(Part Confidence Maps),第二个分支用来提取部位关联字段(Part Affinity Fields),即一个分支用于回归关节点,另一个则回归关节点之间的链接。其次,得到这两个信息后,使用偶匹配(BipartiteMatching)求出部位联系(Part Association),使用匈牙利算法(Hungarian algorithm)找到两两关节点最优化的连接方式,将同一个人的关节点连接起来,由于Part AffinityFields自身的矢量性,使得生成的偶匹配很正确,最终合并为一个人的整体骨架。
进一步的,通过光流估计算法获取相邻帧间光流估计结果包括,基于通用的CNN网络模型/传统计算梯度方法进行光流估计阶段。先将预处理后的图像序列提取特征点,把相邻两帧图像中每个像素的运动速度和运动方向计算出来,即估计对应特征点的运动矢量。
具体的,基于FlowNetS网络模型进行光流估计阶段:经过步骤1对第t-1帧、第t帧图像进行预处理,裁剪为384x512像素大小,将两帧图像联系在一起作为FlowNetS网络输入(384x512x6),通过六块卷积层,六次池化后,特征图越来越小,提出特征(6x8x1024),再经过提炼模块(refinement),向后反卷积unconv,并直接在小的特征图上预测,把结果双线性插值,关联在反卷积后的特征图上,重复四次后,直接双线性插值得到和输入相同分辨率的光流预测图,进而估计对应特征点的运动变化。或者使用传统计算梯度方法进行光流估计,光流需要满足的条件假设:1.物体的像素强度在连续帧之间不会改变;2.相邻像素间有相似的运动。考虑在第t-1帧时A点的位置为(x1,y1),那么在第t帧时再找到A点,假如它的位置为(x2,y2),就可以确定A点的运动(ux,uy)=(x2,y2)-(x1,y1)。向量(ux,uy)就是A点的光流,其包含x方向和y方向的运动。
进一步的,将N帧估计数据以及其中相邻帧间光流估计结果,共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练包括,结合步骤2、步骤3进行引入光流估计算法的人体姿态估计与跟踪阶段。将步骤2中n帧姿态估计结果(n≧2)、以及步骤3中相邻帧间光流估计结果,共n+(n-1)个参数作为输入到通用CNN网络模型中进行多帧人体姿态估计与跟踪,通过引入相邻帧间光流估计运动向量,对每帧姿态估计进行跟踪,从而匹配修正每帧姿态估计结果。
作为一种具体实施方式,结合步骤2、步骤3进行引入光流估计的人体姿态估计与跟踪阶段:如图3所示,第i个视频中第t-1帧、第t帧经过步骤2、3后,将步骤2中第t-1帧、第t帧姿态估计结果作为参数输入到一个包含三层2D卷积池化层的网络中,引入步骤3中第t-1帧、第t帧相邻帧间光流估计量作为输入,对第t-1帧、第t帧姿态估计进行跟踪,得到第(t-1)’帧、第t’帧。通过引入光流估计量对两帧人体姿态进行修正,从而得到更准确的结果。
进一步的,基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据包括,在CNN网络模型中添加损失函数进行重叠帧一致性矫正,当不同片段连续n帧输入时(n≧2),获得损失函数在欧氏距离上达到最小的估计数据。
具体的,基于损失函数约束进行重叠帧匹配阶段;在通用的CNN网络模型中添加损失函数进行重叠帧一致性矫正,当不同片段连续n帧输入时(n≧2),每个片段中相同帧经过上述步骤1、步骤1和步骤3后姿态估计输出结果需通过损失函数在欧氏距离上达到最小。
作为其中一种实施方式,基于损失函数约束进行重叠帧修正阶段:如图4所示:取第i个视频中两段,第一段输入第t-1帧、第t帧,经过所述步骤1、步骤2和将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练后得到第(t-1)’1帧、第t’1帧;第二段输入第t帧、第t+1帧,经过上述3个步骤后得到第t’2帧、第(t+1)’2帧;则第t’1帧和第t’2帧为两个片段中的重叠帧,添加均方误差(Mean Squared Error)作为损失函数进行重叠帧一致性修正,其中y表示当前帧的姿态估计值,N表示总共的关节个数,通过损失函数可以测量第t’1帧结果与第t’2帧结果之间的误差大小,然后基于该误差对重叠帧进行优化和修正,使得每个片段中相同帧姿态估计输出结果在欧氏距离上达到最小;
均方误差为
Figure BDA0002984289820000081
实施例2
一种视频中人体姿态估计与跟踪系统,包括:
数据采集模块,被配置为采集人体姿态估计数据集中的视频数据;
数据处理模块,被配置为通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
数据修正模块,被配置为将N帧估计数据以及其中相邻帧间光流估计结果,共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。
进一步的,所述数据采集模块、数据处理模块和数据修正模块所被配置的具体方式分别对应上述实施例中所述的视频中人体姿态估计与跟踪方法的具体步骤。
实施例3
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如上述实施例中所述的视频中人体姿态估计与跟踪方法。
实施例4
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如上述实施例中所述的视频中人体姿态估计与跟踪方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种视频中人体姿态估计与跟踪方法,其特征在于,包括:
采集人体姿态估计数据集中的视频数据;
通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。
2.如权利要求1所述的视频中人体姿态估计与跟踪方法,其特征在于,还包括对视频数据进行预处理,将视频数据进行预处理获取单帧图像,并对单帧图像进行图像预处理获得预处理后的每帧图像。
3.如权利要求2所述的视频中人体姿态估计与跟踪方法,其特征在于,视频数据采集并进行预处理,将视频数据转换为帧序列的形式,得到图像序列并进行图像预处理,进行取均值、归一化、缩放和裁剪。
4.如权利要求1所述的视频中人体姿态估计与跟踪方法,其特征在于,通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,包括将某帧图像压缩到对应CNN网络模型的输入尺寸,调用目标检测获得该帧中各个目标的检测框,利用人体姿态估计深度学习模型将该帧中所有人体的关节点检测出来并定位,生成姿态估计数据。
5.如权利要求1所述的视频中人体姿态估计与跟踪方法,其特征在于,通过光流估计算法获取相邻帧间光流估计结果包括,先将预处理后的图像序列提取特征点,把相邻两帧图像中每个像素的运动速度和运动方向计算出来,估计对应特征点的运动矢量。
6.如权利要求5所述的视频中人体姿态估计与跟踪方法,其特征在于,对第t-1帧、第t帧图像进行预处理,将两帧图像联系在一起作为网络输入,通过卷积层和池化后提出特征,再经过提炼模块、向后反卷积和预测得到结果,把结果双线性插值,关联在反卷积后的特征图上,输入光流预测图,进而估计对应特征点的运动变化获得相邻帧间光流估计结果。
7.如权利要求1所述的视频中人体姿态估计与跟踪方法,其特征在于,基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据包括,在CNN网络模型中添加损失函数进行重叠帧一致性矫正,当不同片段连续n帧输入时(n≧2),获得损失函数在欧氏距离上达到最小的估计数据。
8.一种视频中人体姿态估计与跟踪系统,其特征在于,包括:
数据采集模块,被配置为采集人体姿态估计数据集中的视频数据;
数据处理模块,被配置为通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据,并通过光流估计算法获取相邻帧间光流估计结果;
数据修正模块,被配置为将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练,并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。
9.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时,完成如权利要求1-7任一所述的视频中人体姿态估计与跟踪方法。
10.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-7任一所述的视频中人体姿态估计与跟踪方法。
CN202110295774.1A 2021-03-19 2021-03-19 一种视频中人体姿态估计与跟踪方法及系统 Active CN113255429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110295774.1A CN113255429B (zh) 2021-03-19 2021-03-19 一种视频中人体姿态估计与跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110295774.1A CN113255429B (zh) 2021-03-19 2021-03-19 一种视频中人体姿态估计与跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN113255429A true CN113255429A (zh) 2021-08-13
CN113255429B CN113255429B (zh) 2023-04-07

Family

ID=77181460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110295774.1A Active CN113255429B (zh) 2021-03-19 2021-03-19 一种视频中人体姿态估计与跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN113255429B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
TWI811102B (zh) * 2021-09-14 2023-08-01 聯發科技股份有限公司 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611157A (zh) * 2016-11-17 2017-05-03 中国石油大学(华东) 一种基于光流定位和滑动窗口检测的多人姿态识别方法
WO2017206005A1 (zh) * 2016-05-30 2017-12-07 中国石油大学(华东) 一种基于光流检测和身体部分模型的多人姿态识别系统
CN110598547A (zh) * 2019-08-06 2019-12-20 清华大学 快速运动人体姿态估计方法及装置
CN111192293A (zh) * 2019-12-27 2020-05-22 深圳市越疆科技有限公司 一种运动目标位姿跟踪方法及装置
CN111832386A (zh) * 2020-05-22 2020-10-27 大连锐动科技有限公司 一种估计人体姿态的方法、装置及计算机可读介质
CN113743269A (zh) * 2021-08-26 2021-12-03 浙江工业大学 一种轻量化识别视频人体姿态的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206005A1 (zh) * 2016-05-30 2017-12-07 中国石油大学(华东) 一种基于光流检测和身体部分模型的多人姿态识别系统
CN106611157A (zh) * 2016-11-17 2017-05-03 中国石油大学(华东) 一种基于光流定位和滑动窗口检测的多人姿态识别方法
CN110598547A (zh) * 2019-08-06 2019-12-20 清华大学 快速运动人体姿态估计方法及装置
CN111192293A (zh) * 2019-12-27 2020-05-22 深圳市越疆科技有限公司 一种运动目标位姿跟踪方法及装置
CN111832386A (zh) * 2020-05-22 2020-10-27 大连锐动科技有限公司 一种估计人体姿态的方法、装置及计算机可读介质
CN113743269A (zh) * 2021-08-26 2021-12-03 浙江工业大学 一种轻量化识别视频人体姿态的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXEY DOSOVITSKIY ET AL.: ""FlowNet: Learning Optical Flow with Convolutional Networks"", 《PROCEEDINGS OF THE 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
TOMAS PFISTER ET AL.: ""Flowing ConvNets for Human Pose Estimation in Videos"", 《PROCEEDINGS OF THE 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
TWI811102B (zh) * 2021-09-14 2023-08-01 聯發科技股份有限公司 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路

Also Published As

Publication number Publication date
CN113255429B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Song et al. Constructing stronger and faster baselines for skeleton-based action recognition
Cheng et al. Robust visual localization in dynamic environments based on sparse motion removal
CN109117753B (zh) 部位识别方法、装置、终端及存储介质
CN113255429B (zh) 一种视频中人体姿态估计与跟踪方法及系统
CN109614933B (zh) 一种基于确定性拟合的运动分割方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
Gouidis et al. Accurate hand keypoint localization on mobile devices
CN111914756A (zh) 一种视频数据处理方法和装置
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
CN112307892A (zh) 一种基于第一视角rgb-d数据的手部动作识别方法
CN106778576B (zh) 一种基于sehm特征图序列的动作识别方法
CN113989928B (zh) 一种动作捕捉和重定向方法
Hwang et al. Self-supervised monocular depth estimation using hybrid transformer encoder
Chang et al. Visual tracking in high-dimensional state space by appearance-guided particle filtering
Mistry et al. Intelligent Appearance and shape based facial emotion recognition for a humanoid robot
CN115063717B (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
Duran et al. HMP: Hand Motion Priors for Pose and Shape Estimation from Video
CN113870307A (zh) 一种基于帧间信息的目标检测方法及装置
CN114548224A (zh) 一种用于强交互人体运动的2d人体位姿生成方法及装置
Gao et al. Coarse TRVO: A robust visual odometry with detector-free local feature
CN112634331A (zh) 一种光流预测方法及装置
CN113327267A (zh) 一种基于单目rgb视频的动作评价方法
He et al. Attention voting network with prior distance augmented loss for 6DoF pose estimation
Tao et al. Tracking facial features using probabilistic network
Ishii et al. Occlusion-robust 3D hand pose estimation from a single RGB image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant