CN113255429A

CN113255429A - 一种视频中人体姿态估计与跟踪方法及系统

Info

Publication number: CN113255429A
Application number: CN202110295774.1A
Authority: CN
Inventors: 王海滨; 纪文峰
Original assignee: Qingdao Genjian Intelligent Technology Co ltd
Current assignee: Qingdao Genjian Intelligent Technology Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-08-13
Anticipated expiration: 2041-03-19
Also published as: CN113255429B

Abstract

本公开提供了一种视频中人体姿态估计与跟踪方法及系统，包括：采集人体姿态估计数据集中的视频数据；通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，并通过光流估计算法获取相邻帧间光流估计结果；将N帧估计数据以及其中相邻帧间光流估计结果，共N+(N‑1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练，并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据；可对视频中人体快速运动时造成图像模糊姿态估计不准确进行有效改善，提高视频中人体姿态估计与跟踪准确度。

Description

一种视频中人体姿态估计与跟踪方法及系统

技术领域

本公开涉及图像处理与计算机视觉领域，具体涉及一种结合光流估计的视频中人体姿态估计与跟踪方法模型。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成现有技术。

近年来，基于深度学习的人体姿态估计基础上，多人姿态估计、人体行为识别等课题的研究逐渐成为研究热点，特别是在虚拟现实、视频分析、身份鉴别、体感交互、人机互动、智能监控、医疗诊断等领域中有广泛的应用前景，深度学习方法已经成为人们日常使用的工具。随着计算机视觉学界从图像理解转向视频理解，互联网用户从发布图片朋友圈转向发布短视频，人们对视频的研究和应用的关注不断增强，光流估计作为视频理解的隐形战士，能够为我们提供新的思路。

虽然，目前对静止图像人体姿态估计的研究取得了很大的成功，但是对于视频类的人体姿态跟踪仍然是一个具有挑战性的课题。对基于结合光流估计算法的视频中人体姿态跟踪方法研究还比较少，大多是研究人体动作识别，并进行分类，很少考虑光流估计算法如何为2D人体姿态跟踪提供指导帮助。然而，结合光流估计的视频中人体姿态跟踪方法研究不仅涉及深度学习、基于图像人体姿态估计等问题，而且所采用的光流估计算法进行每一帧图像之间运动量估计过程以及将二者相结合的模型较为复杂，因此综合考虑这部分研究的文献较少。

综上所述，人体关节点跟踪作为一个新兴的研究领域，如何实现高精度的估计人体关节轨迹，完成姿态估计与追踪是急需要解决的技术问题。

发明内容

为了解决上述问题，本公开提出了一种视频中人体姿态估计与跟踪方法及系统，具体提供了一种结合光流估计的视频中人体姿态估计与跟踪方法模型以准确估计人体关节点轨迹，完成姿态估计与跟踪。

第一方面，本公开提供了一种视频中人体姿态估计与跟踪方法，包括：

采集人体姿态估计数据集中的视频数据；

通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，并通过光流估计算法获取相邻帧间光流估计结果；

将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练，并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。

第二方面，本公开提供了一种视频中人体姿态估计与跟踪系统，包括：

数据采集模块，被配置为采集人体姿态估计数据集中的视频数据；

数据处理模块，被配置为通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，并通过光流估计算法获取相邻帧间光流估计结果；

数据修正模块，被配置为将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练，并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。

第三方面，本公开提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如第一方面所述的视频中人体姿态估计与跟踪方法。

第四方面，本公开提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如第一方面所述的视频中人体姿态估计与跟踪方法。

与现有技术对比，本公开具备以下有益效果：

1、本公开首先基于通用的人体姿态估计CNN网络模型分别对视频中每帧图像进行人体姿态估计，并基于通用的光流估计算法计算相邻两帧间运动矢量，然后将N帧姿态估计以及其中相邻帧间光流估计结果，共N+(N-1)个参数作为输入到改进的CNN网络模型中进行人体姿态跟踪训练，最后通过添加损失函数对相同帧进行矫正，保证每段视频序列帧输入中的重叠帧输出结果一致。通过实施本发明，可对视频中人体快速运动时造成图像模糊姿态估计不准确进行有效改善，提高视频中人体姿态估计与跟踪准确度。

2、本公开基于图像的人体姿态估计方法，结合光流估计算法，通过损失函数对重叠帧进行优化与修正，使得视频中人体姿态估计更为准确，解决了对视频中如何人体姿态进行估计与跟踪的问题，实现结合光流估计的视频中人体姿态估计与跟踪方法模型以准确估计人体关节点轨迹，完成姿态估计与跟踪。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本公开的视频中人体姿态估计与跟踪方法的具体流程图；

图2是本公开的基于VGGNet网络模型进行人体姿态估计示意图；

图3是本公开的结合光流估计的人体姿态跟踪修正示意图；

图4是本公开的基于损失函数约束的重叠帧修正示意图；

图5是本公开的视频中人体姿态估计与跟踪方法的流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

如图1所示，一种视频中人体姿态估计与跟踪方法，包括：

步骤(1)采集人体姿态估计数据集中的视频数据；

步骤(2)通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，并通过光流估计算法获取相邻帧间光流估计结果；

步骤(3)将N帧估计数据以及其中相邻帧间光流估计结果，共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练，并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。其中N≧2。

进一步的，还包括对视频数据进行预处理，将视频数据进行预处理获取单帧图像，并对单帧图像进行图像预处理获得预处理后的每帧图像；

作为其中一种实施方式，视频数据采集并进行预处理，将视频数据转换为帧序列的形式，得到图像序列并进行图像预处理，进行取均值、归一化、缩放和裁剪。

具体的，选取上述数据集中的M个视频数据进行预处理，以第i个视频为例，通过OpenCV获取输入地包含人体姿态信息的视频流，首先将其转换为帧序列{1,......,t-1,t,t+1,......,n}，共n帧，获取单帧图像，以第t-1帧、第t帧、第t+1帧为例(t≧2)，对获取图像帧进行图像预处理，包括：取均值，归一化，缩放、裁剪等方式。其中，所述图像为3通道的RBG格式的图像。

进一步的，所述采集人体姿态估计数据集中的视频数据具体的，以人体姿态估计数据集PoseTrack为例，共1356个视频序列，属于多人类型，包含关节点个数15，46K带注释的视频帧，276K人体姿势注释，选取上述数据集中的M个视频数据进行预处理。

进一步的，通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，包括将某帧图像压缩到对应CNN网络模型的输入尺寸，调用目标检测获得该帧中各个目标的检测框(Bounding-Box)，如行人个体以及人体各部位候选区域，利用人体姿态估计深度学习模型将该帧中所有人体的关节点检测出来并定位，如头部、左手、右膝等，从RGB图像估计每个关节的2D姿势(x，y)坐标，生成姿态估计数据。

具体的，基于VGGNet-19网络模型进行人体姿态估计阶段：如图2所示，首先选用第i个视频中第t-1帧、第t帧，经过步骤1中图像预处理将图像裁剪到VGGNet-19网络模型的输入尺寸224x224像素大小，VGGNet-19的前10层用于为输入图像创建特征映射，经过卷积网络提取特征，得到一组特征图后，分为两阶段，第一个阶段的输入数据为VGGNet-19前10层得到的特征，而随后阶段的输入数据为前一个阶段的输出和特征。每个阶段用一个双分支来联合预测身体部位，第一个分支用来提取部位置信度图(Part Confidence Maps)，第二个分支用来提取部位关联字段(Part Affinity Fields)，即一个分支用于回归关节点，另一个则回归关节点之间的链接。其次，得到这两个信息后，使用偶匹配(BipartiteMatching)求出部位联系(Part Association)，使用匈牙利算法(Hungarian algorithm)找到两两关节点最优化的连接方式，将同一个人的关节点连接起来，由于Part AffinityFields自身的矢量性，使得生成的偶匹配很正确，最终合并为一个人的整体骨架。

进一步的，通过光流估计算法获取相邻帧间光流估计结果包括，基于通用的CNN网络模型/传统计算梯度方法进行光流估计阶段。先将预处理后的图像序列提取特征点，把相邻两帧图像中每个像素的运动速度和运动方向计算出来，即估计对应特征点的运动矢量。

具体的，基于FlowNetS网络模型进行光流估计阶段：经过步骤1对第t-1帧、第t帧图像进行预处理，裁剪为384x512像素大小，将两帧图像联系在一起作为FlowNetS网络输入(384x512x6)，通过六块卷积层，六次池化后，特征图越来越小，提出特征(6x8x1024)，再经过提炼模块(refinement)，向后反卷积unconv，并直接在小的特征图上预测，把结果双线性插值，关联在反卷积后的特征图上，重复四次后，直接双线性插值得到和输入相同分辨率的光流预测图，进而估计对应特征点的运动变化。或者使用传统计算梯度方法进行光流估计，光流需要满足的条件假设：1.物体的像素强度在连续帧之间不会改变；2.相邻像素间有相似的运动。考虑在第t-1帧时A点的位置为(x1,y1)，那么在第t帧时再找到A点，假如它的位置为(x2,y2)，就可以确定A点的运动(ux,uy)＝(x2,y2)-(x1,y1)。向量(ux,uy)就是A点的光流，其包含x方向和y方向的运动。

进一步的，将N帧估计数据以及其中相邻帧间光流估计结果，共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练包括，结合步骤2、步骤3进行引入光流估计算法的人体姿态估计与跟踪阶段。将步骤2中n帧姿态估计结果(n≧2)、以及步骤3中相邻帧间光流估计结果，共n+(n-1)个参数作为输入到通用CNN网络模型中进行多帧人体姿态估计与跟踪，通过引入相邻帧间光流估计运动向量，对每帧姿态估计进行跟踪，从而匹配修正每帧姿态估计结果。

作为一种具体实施方式，结合步骤2、步骤3进行引入光流估计的人体姿态估计与跟踪阶段：如图3所示，第i个视频中第t-1帧、第t帧经过步骤2、3后，将步骤2中第t-1帧、第t帧姿态估计结果作为参数输入到一个包含三层2D卷积池化层的网络中，引入步骤3中第t-1帧、第t帧相邻帧间光流估计量作为输入，对第t-1帧、第t帧姿态估计进行跟踪，得到第(t-1)’帧、第t’帧。通过引入光流估计量对两帧人体姿态进行修正，从而得到更准确的结果。

进一步的，基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据包括，在CNN网络模型中添加损失函数进行重叠帧一致性矫正，当不同片段连续n帧输入时(n≧2)，获得损失函数在欧氏距离上达到最小的估计数据。

具体的，基于损失函数约束进行重叠帧匹配阶段；在通用的CNN网络模型中添加损失函数进行重叠帧一致性矫正，当不同片段连续n帧输入时(n≧2)，每个片段中相同帧经过上述步骤1、步骤1和步骤3后姿态估计输出结果需通过损失函数在欧氏距离上达到最小。

作为其中一种实施方式，基于损失函数约束进行重叠帧修正阶段：如图4所示：取第i个视频中两段，第一段输入第t-1帧、第t帧，经过所述步骤1、步骤2和将估计数据以及相邻帧间光流估计结果输入到改进的CNN网络模型中进行人体姿态跟踪训练后得到第(t-1)’1帧、第t’1帧；第二段输入第t帧、第t+1帧，经过上述3个步骤后得到第t’2帧、第(t+1)’2帧；则第t’1帧和第t’2帧为两个片段中的重叠帧，添加均方误差(Mean Squared Error)作为损失函数进行重叠帧一致性修正，其中y表示当前帧的姿态估计值，N表示总共的关节个数，通过损失函数可以测量第t’1帧结果与第t’2帧结果之间的误差大小，然后基于该误差对重叠帧进行优化和修正，使得每个片段中相同帧姿态估计输出结果在欧氏距离上达到最小；

均方误差为

实施例2

一种视频中人体姿态估计与跟踪系统，包括：

数据修正模块，被配置为将N帧估计数据以及其中相邻帧间光流估计结果，共N+(N-1)个参数输入到改进的CNN网络模型中进行人体姿态跟踪训练，并基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据。

进一步的，所述数据采集模块、数据处理模块和数据修正模块所被配置的具体方式分别对应上述实施例中所述的视频中人体姿态估计与跟踪方法的具体步骤。

实施例3

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上述实施例中所述的视频中人体姿态估计与跟踪方法。

实施例4

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上述实施例中所述的视频中人体姿态估计与跟踪方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种视频中人体姿态估计与跟踪方法，其特征在于，包括：

采集人体姿态估计数据集中的视频数据；

2.如权利要求1所述的视频中人体姿态估计与跟踪方法，其特征在于，还包括对视频数据进行预处理，将视频数据进行预处理获取单帧图像，并对单帧图像进行图像预处理获得预处理后的每帧图像。

3.如权利要求2所述的视频中人体姿态估计与跟踪方法，其特征在于，视频数据采集并进行预处理，将视频数据转换为帧序列的形式，得到图像序列并进行图像预处理，进行取均值、归一化、缩放和裁剪。

4.如权利要求1所述的视频中人体姿态估计与跟踪方法，其特征在于，通过人体姿态估计网络模型对视频数据中每帧图像进行人体姿态估计获得估计数据，包括将某帧图像压缩到对应CNN网络模型的输入尺寸，调用目标检测获得该帧中各个目标的检测框，利用人体姿态估计深度学习模型将该帧中所有人体的关节点检测出来并定位，生成姿态估计数据。

5.如权利要求1所述的视频中人体姿态估计与跟踪方法，其特征在于，通过光流估计算法获取相邻帧间光流估计结果包括，先将预处理后的图像序列提取特征点，把相邻两帧图像中每个像素的运动速度和运动方向计算出来，估计对应特征点的运动矢量。

6.如权利要求5所述的视频中人体姿态估计与跟踪方法，其特征在于，对第t-1帧、第t帧图像进行预处理，将两帧图像联系在一起作为网络输入，通过卷积层和池化后提出特征，再经过提炼模块、向后反卷积和预测得到结果，把结果双线性插值，关联在反卷积后的特征图上，输入光流预测图，进而估计对应特征点的运动变化获得相邻帧间光流估计结果。

7.如权利要求1所述的视频中人体姿态估计与跟踪方法，其特征在于，基于损失函数约束进行重叠帧修正输出准确的人体估计姿态与跟踪数据包括，在CNN网络模型中添加损失函数进行重叠帧一致性矫正，当不同片段连续n帧输入时(n≧2)，获得损失函数在欧氏距离上达到最小的估计数据。

8.一种视频中人体姿态估计与跟踪系统，其特征在于，包括：

9.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时，完成如权利要求1-7任一所述的视频中人体姿态估计与跟踪方法。

10.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-7任一所述的视频中人体姿态估计与跟踪方法。