CN114724185A

CN114724185A - 一种轻量型的多人姿态跟踪方法

Info

Publication number: CN114724185A
Application number: CN202210386007.6A
Authority: CN
Inventors: 张烨; 陈威慧
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-08

Abstract

一种轻量型的多人姿态跟踪方法，包括如下步骤：步骤一，设计轻量化目标检测器；步骤二，构建轻量化多目标跟踪器；步骤三，搭建轻量化人体姿态估计器；步骤四，将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联；步骤五，对模型进行训练及测试。本发明在保证检测速度的前提下，获得更理想的检测精度，满足实际作业中的实时性需求；改善目标部分遮挡、运动模糊等情况下的目标检测质量，继而获得更好的跟踪效果；获取跟踪目标人体的边界框位置信息的同时检测人体各个关键点的位置，实现对多人姿态的轻量化跟踪。

Description

一种轻量型的多人姿态跟踪方法

技术领域

本发明涉及一种轻量化进行多人姿态跟踪的方法。

技术背景

作为人工智能范畴最重要的前沿分支之一的机器视觉技术在深度学习强大的表示学习的能力、高超的GPU并行计算能力以及海量的带标签数据资源的加持下在人机协同、模式识别等诸多领域得到了广泛的应用研究，与之相关的一个重要研究方向是对基于视频的多人姿态跟踪进行研究。目前大多数的多目标跟踪模型都是遵循本质上目标检测和目标跟踪相剥离的tracking-by-detection范式或者joint detection and tracking范式设计而成，研发一种联合检测和跟踪的端到端的多目标跟踪模型能使得目标检测结果与目标跟踪结果相辅相成，得到更优的识别效果。此外，视频数据比图像数据多了时间维度的信息，这也使得基于视频的多人姿态跟踪模型的计算量更为庞大，所以研发一种轻量型的多人姿态跟踪方法显得格外重要。

发明内容

针对上述问题，本发明提出一种轻量型的多人姿态跟踪方法。

本发明首先对传统CenterNet进行了轻量化改进，以此得到轻量化目标检测器，从而快速确定输入的视频帧序列中人体动作的起始帧，以及确定视频画面中人体的位置信息，为后续的轻量化人体姿态跟踪器提供跟踪目标区域。然后构建轻量化多目标跟踪器，该模型主要由数据关联模块和特征传递模块两部分组成，其中先通过数据关联模块中由DLA-34网络和三层3×3Conv构成的特征提取网络逐点提取Re-ID嵌入特征来构造代价量；然后利用代价量推测跟踪目标的偏移距离，此处获取的跟踪偏移量会把图中的所有特征整合并用于数据关联；接着通过构造基于运动指导的特征传递模块把跟踪偏移量视为运动线索将目标特征从前一帧传递到当前帧，被传递的特征会与当前帧的特征进行合并，以此提高当前的目标检测特征，实现通过目标跟踪信息来指导检测，检测结果有效地反馈给跟踪器的目的；最后将增强后的特征传入检测头网络，检测头网络由目标中心预测子网络、中心点偏移预测子网络、边界框预测子网络以及位移预测子网络四部分组成，其中目标中心预测子网络输出关键点热点图用于预测目标中心点可当作目标关键点的概率，中心点偏移预测子网络输出中心点由于下采样而带来的局部位置信息的偏移误差，边界框预测子网络输出预测目标对象的尺寸，而位移预测子网络则用以数据关联，即用来计算当前帧与过去帧之间的时空位移。接着搭建轻量化人体姿态估计器，这里使用自上而下的人体关键点检测算法，即先利用目标检测模型得到精确的人体边界框，然后采用基于目标中心点的人体关键点检测方法来定位目标人体的关键点。紧接着将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联，把目标检测器输出的视频帧图像作为模型的输入，得到每一帧图像中每个人体的13个关键点坐标值，实现对人体姿态的跟踪。最后使用训练集对模型进行训练，根据损失函数的收敛情况来调试模型的参数，防止梯度震荡，使用测试集对模型进行测试，判断模型的识别精度和识别速度，循环往复，完成模型的学习与修改，得到鲁棒性强的模型。

为了实现上述目的，本发明采用以下技术方案：

一种轻量型的多人姿态跟踪方法，包括如下步骤：

步骤一，设计轻量化目标检测器；

为了快速确定输入的视频帧序列中人体动作的起始帧，以及确定视频画面中人体的位置信息，为后续的轻量化人体姿态跟踪器提供跟踪目标区域，本发明利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧序列进行目标检测。因为现实场景中的大多数视频帧图像存在背景复杂度高、相同画面以及不同画面中目标尺寸变化大等特点，又因为传统CenterNet对不同类别的目标对象共享局部位置偏移特征图与尺寸特征图，导致同一张特征图不得不学习数个量级的期望值，增添了网络的训练难度。为此，本发明对CenterNet进行了轻量化改进，主要包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络，修改目标预测机制，为CenterNet的检测头网络增加自适应阈值预测子网络，使得模型在保证检测速度的前提下，可以获得更理想的检测精度，满足实际作业中的实时性需求。

步骤二，构建轻量化多目标跟踪器；

2.1设计基于Re-ID嵌入特征的数据关联模块；

假设目标检测器输出的两张视频帧图像分别为I^t-1与I^t，且

它们通过DLA-34网络产生特征图f^t-1与f^t，随即将上述特征图传入由三层3×3Conv构成的卷积模块中提取Re-ID嵌入特征，对于f^t有：

e^t＝Φ(f^t)，且

其中，e^t表示提取的Re-ID嵌入特征；Φ(·)表示由三层3×3Conv构成的卷积模块。

然后利用Re-ID嵌入特征来构造代价量，代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度。其计算步骤有：

(a)为了降低计算量，先用最大池化对Re-ID嵌入特征图进行下采样，得到：

d^t＝D(e^t)，且

其中，d^t表示提取的下采样特征；D(·)表示下采样操作。

(b)计算两个特征图I^t-1与I^t上任意两个点之间的相似度矩阵，即代价量，有：

且

其中，C_ijkl表示特征图I^t上的点(i,j)与特征图I^t-1上的点(k,l)之间的代价量。

接着利用代价量计算跟踪偏移矩阵

该矩阵能够存储t时刻视频帧的每个点相对于其在(t-1)时刻的时空位移。对于特征图I^t上的点(i,j)，由代价量的计算方法可得到其对应的二维代价量

它代表点(i,j)与特征图I^t-1上所有点之间的匹配相似度，利用C_ij计算得到G_ij∈R²的步骤有：

(T1)分别使用池化核

与

对C_ij进行最大池化，然后使用Softmax函数进行标准化，得到向量

与

与

分别代表点(i,j)在第(t-1)帧某一指定的水平位置与垂直位置的概率大小。

(T2)

与

提供了当前帧的点(i,j)在过去帧上指定位置的概率，为了获取最终的偏移量，本发明先定义了水平与垂直两个方向上的偏移模板分别为

与

其代表着点(i,j)在那些位置的实际偏移值，即有：

其中，s表示特征图相对于原图的下采样倍率。

(T3)将相似度与实际偏移值进行点积运算，即可得到最终的跟踪偏移量G_ij，有：

(T4)已知

的维度为

因此对其进行倍率等于2的上采样操作，使之变为

以用作基于运动指导的特征传递模块的动态信息以及数据关联。

对于基于Re-ID嵌入特征的数据关联模块的训练过程，因为只有由三层3×3Conv构成的卷积模块Φ(·)进行学习，故数据关联模块的优化目标即学习到有效的Re-ID嵌入特征e。为了监督e，很多Re-ID模型会通过损失函数直接对其进行监督，而数据关联模块则通过监督代价量实现此目的，具体实现方法为：

当第t帧上处于(i,j)位置的目标点在第(t-1)帧上的(k,l)位置时，令Z_ijkl＝1，否则Z_ijkl＝0。然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块，有：

其中，

β为超参数。

由于

与

是使用Softmax函数进行标准化得到的，如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度，还包含点(i,j)与过去帧上所有点之间的相似度，这就意味着当

与

被优化到接近1时，它在强制一个目标点接近前一帧中的自己的同时，还排斥其他目标点和图像背景区域。

区别于传统的Re-ID模型，本发明的数据关联模块不仅仅要求网络学习的Re-ID嵌入特征考虑类内差异，还要求其考虑类间差异，这种处理方式能较好地兼容目标检测的损失函数并且不会破坏检测结果，进而实现通过完整的跟踪信息来指导目标检测，检测结果能有效地反馈给跟踪器。此外，因为跟踪偏移量是由外观相似度计算而来的，它能在较大运动范围内跟踪目标对象，所以它也是非常有效的运动线索，而同时使用外观相似度和跟踪偏移量，可以保证网络获取更加准确的数据关联。

2.2设计基于运动指导的特征传递模块；

基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量G^C将运动线索从过去帧特征图f^t-τ变换传递到当前帧以完善、增强特征f^t。为此，本发明通过单个可变形卷积DCN来实现高效的特征传递，进而聚合传递的特征来增强f^t。

①计算传递的特征；

首先，利用一层3×3Conv对G^C进行上采样，得到G^D。设

为DCN两个方向上的输入偏移量，其中K为DCN核的宽度和高度。

又考虑到本发明的人体姿态估计器是基于目标中心点特征而进行的，所以这里不直接对f^t-τ进行处理，而是将其与目标检测器(t-τ)时刻产生的目标中心热点图

做哈达玛积运算进行转换，以降低模型后续的计算量。在通道索引q，有：

其中，

表示哈达玛积运算。

接着，通过DCN即可计算得到传递特征(f′)^t-τ为：

(f′)^t-τ＝DCN[G^D,(f^*)^t-τ]，且

②进行特征增强；

鉴于当视频流中的人体被遮挡或者出现运动模糊时，会引发被跟踪目标丢失，此时可以将过去帧传递的特征(f′)^t-τ融合到当前帧来增强特征f^t，这样被遮挡的或者模糊的目标能变得清晰易读。设增强后的特征为(f⁰)^t，它通过加权求和得到，

其中，

为第t帧的自适应权重，由两层卷积加Softmax函数预测得到，且

T表示用于聚合的过去帧数量。

增强后的特征(f⁰)^t将被用于后续的检测头网络，对于人体目标，其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果，以完成检测、跟踪任务。

③设计损失函数；

对于多目标跟踪器的总体损失函数L有：

L＝L_DAM+L_det (10)

其中，L_DAM为数据关联模块的损失函数；L_det为检测头网络的损失函数。

2.3生成轨迹；

对于t帧上处于位置(m,n)的检测框M，首先将其与(t-1)帧上未匹配的检测框M′关联，其中要求M′必须在以

为圆心、以M的宽高尺寸的几何平均值为半径的圆域内，

表示视频帧I_t与视频帧I_t-1之间的跟踪偏移量。接着考虑M在上一轮数据关联中没有匹配上任何目标的情况，计算其Re-ID嵌入特征

与未匹配的检测框或者历史轨迹段的Re-ID嵌入特征之间的余弦相似度，M将与具有最高相似度且高于阈值的轨迹段关联。若经过两轮数据关联M都没有被匹配上，则将其视为新轨迹，并为其分配新的ID。

步骤三，搭建轻量化人体姿态估计器；

由于人体姿态估计问题的复杂性，目前大多数模型都会加大网络的层数、且使用较复杂的网络结构去挖掘人体姿态较深层的特征，这不可避免地增加了模型的参数量、计算量以及所需的显存大小。所以为了获取轻量化人体姿态估计器，本发明使用自上而下的人体关键点检测算法，即先利用目标检测模型得到精确的人体边界框，然后采用基于目标中心点的人体关键点检测方法，显著降低模型的参数量和计算量，实现轻量化定位目标人体的关键点，完成人体动作空间特征提取。

3.1设计网络结构及损失函数；

假设输入图像I₀∈R^W×H×3，其中W表示输入图像的宽度，H表示输入图像的高度，由3个残差密集连接块组成的主干网络LRDN在提取I₀人体检测区域的深层特征后，将其输入到3个反卷积组构成的特征聚合网络内进行上采样操作。其中，每个反卷积组由一个步长为1的3×3标准卷积与一个步长为2的4×4反卷积组成。最后3个分支卷积网络分别用来预测人体关键点热点图

关键点相对于目标中心点的偏移误差

以及关键点离散化偏移误差

其中κ为人体关键点数，R₀为缩放因子。

假设目标人体的关键点p(x,y)在对应预测热点图上的位置坐标为p′(x′,y′)，则有：

其中，r表示由于卷积步长而产生的下采样因子；

表示向下取整函数。

网络训练关键点热点图的损失函数L_hm基于用于密集物体检测的焦点损失函数Focal Loss设计，即有：

其中，

表示真实人体关键点的高斯核，σ₀为与对应目标尺寸相关的标准差；Y_pre表示预测关键点的高斯核；N表示输入图像存在的关键点数量；α与β表示权重调节参数。

在处理人体关键点检测问题时，通常会先利用二维高斯函数在真实的关键点位置生成真实的热点图，然后将待检测的图像输入检测网络得到预测的热点图，同时训练预测热点图与真实热点图之间的损失值不断趋于0，从而实现人体关键点位置的准确估计。

为了保证每个人体的每个关键点能够准确地被分配给其所隶属的人体目标对象，本发明设计的人体姿态估计器引入了每个关键点到人体目标中心点的偏移以作为关键点聚类的依据。同时，关键点相对于人体目标中心点的偏移误差采用L₁损失函数进行训练。假设关键点距离目标中心点的真实偏差为(j_x,j_y)，网络预测的偏差为(j′_x,j′_y)，则对于关键点距离人体目标中心点的损失函数有：

L_J＝(j′_x-j_x)+(j′_y-j_y) (13)

在执行步长为2的卷积时会对人体各关键点的具体位置坐标产生离散化偏移误差，所以这里设计的人体姿态估计器还对模型执行卷积步长时产生的偏移量进行了预测，故人体关键点的最终预测坐标值是基于热点图的检测坐标与预测的偏移量之和，则对于关键点p(x,y)的离散化偏移误差M_p有：

设人体关键点离散化偏移的损失函数为L_off，有：

综上，利用式(12)、式(13)与式(15)可得人体姿态估计器的损失函数L_hpe为：

L_hpe＝L_hm+L_J+L_off (16)

3.2进行推理检测；

在检测阶段，假设模型检测到的人体目标中心点为(x₀,y₀)，则根据关键点相对于人体目标中心点的偏移

可回归得到关键点的位置l_τ为：

根据人体关键点热点图

与关键点离散化偏移误差

之和能够得到热点图中所有点在输入图像分辨率下的预测位置，接着设阈值为0.1，将热点图上响应值小于阈值的点直接去除，由此可提取到热点图中所有的第τ个人体关键点部位的预测位置L_τ为：

其中，n_τ表示图中有n个第τ个人体关键点部位；l′_τ,i表示图中第i个第τ个人体关键点部位的预测位置。

然后将回归位置l_τ与L_τ中的所有关键点进行关联，满足式(19)的关键点即为对应人体目标的第τ个关键点。

3.3设计人体关键点数据格式；

本发明主要通过人体动作来进行姿态跟踪，在此过程中人体所做的动作隶属于肢体活动，人体面部关键点的信息在其中发挥的益处甚微，所以本发明基于传统人体姿态识别模型Openpose应用的18个人体关键点结构设计了人体姿态估计器适用的人体关键点结构，同时，该结构对应的人体关键点名称及位置如表1所示。

表1人体关键点名称及位置对应关系表

通常情况下，人体关键点坐标数据中常常存在奇异数据，这会增加模型的训练时间，还容易导致模型无法收敛。为了规避这个问题，同时增强模型的泛化能力，这里对人体姿态估计器提取到的人体关键点坐标数据进行归一化处理后再用于后续模型的训练，具体做法为：

其中，x与y分别表示人体关键点在原始视频帧图像中的横坐标和纵坐标；W与H分别表示原始视频帧图像的宽度和高度；(x′,y′)表示人体关键点(x,y)归一化后的坐标。

步骤四，将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联；

普通的多目标跟踪只需对代表目标的某个关键点进行跟踪即可，但对人体姿态的跟踪则需要对组合成人体姿态的多个肢体关键点进行连续跟踪，所以这里将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联，一方面多目标跟踪器对前后帧视频图像进行跟踪，获取跟踪目标人体的边界框位置信息，另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置，实现对人体姿态的跟踪。

步骤五，对模型进行训练及测试；

将视频数据按照4:1的方式随机划分成训练集和测试集，传入模型进行训练。可以得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况。进一步利用测试集对模型的效果进行评估，得到模型在测试集上的表现，最后得到鲁棒性强的模型。

优选地，步骤(T2)中下采样倍率s＝8。

优选地，步骤①中，DCN核的宽度和高度K取值为：K＝3。

优选地，步骤3.1中，权重调节参数α与β分别设置为α＝2.0，β＝4.0。

优选地，步骤五中，将视频数据传入模型进行训练时，其中，batch_size设置为32，训练epoch设置为2000，初始学习率为0.02，优化器为Adam。

本发明的优点是：

本发明基于机器视觉技术，提出了一种轻量型的多人姿态跟踪方法。其突出特点有：其一，对传统CenterNet进行了轻量化改进，用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络，修改了目标预测机制，为CenterNet的检测头网络增加了自适应阈值预测子网络，使得模型在保证检测速度的前提下，获得更理想的检测精度，满足实际作业中的实时性需求。其二，本发明设计的多目标跟踪器是一个联合检测和跟踪的端到端模型，其不仅可以通过完整的跟踪信息来指导目标检测，还可以把目标检测结果有效地反馈给跟踪模型，实现改善目标部分遮挡、运动模糊等情况下的目标检测质量，继而获得更好的跟踪效果，助力识别任务的完成。其三，设计了多目标跟踪器与人体姿态估计器相并联的多人姿态跟踪器，在对前后帧视频图像进行跟踪，获取跟踪目标人体的边界框位置信息的同时检测人体各个关键点的位置，实现对多人姿态的轻量化跟踪。

附图说明

图1是本发明轻量化多人姿态跟踪模型的总体框架；

图2是本发明的人体姿态估计器的网络结构；

图3a～图3c是本发明的人体姿态估计器的输出特征图；其中图3a是关键点热点图特征图，图3b是关键点位置偏移特征图，图3c是关键点离散偏移特征图；

图4a～图4b是本发明的人体关键点结构图；其中图4a是Openpose算法应用的人体关键点结构，图4b是本发明设计的人体关键点结构；

图5是本发明的人体姿态跟踪器在训练过程中的准确率与损失函数的收敛图。

具体实施方式

为了验证本发明提出的方法的可行性和优越性，现结合应用场景对本发明做进一步的阐述：

一种轻量型的多人姿态跟踪方法，包括如下步骤：

步骤一，设计轻量化目标检测器；

为了快速获取视频中人体动作的起始帧，以及确定视频画面中人体的位置信息，为后续的轻量化人体姿态跟踪器提供跟踪目标区域，本发明利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧图像进行目标检测。因为现实场景中的大多数视频帧图像存在背景复杂度高、相同画面以及不同画面中目标尺寸变化大等特点，又因为传统CenterNet对不同类别的目标对象共享局部位置偏移特征图与尺寸特征图，导致同一张特征图不得不学习数个量级的期望值，增添了网络的训练难度。为此，本发明对CenterNet进行了轻量化改进，主要包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络，修改目标预测机制，为CenterNet的检测头网络增加自适应阈值预测子网络，使得模型在保证检测速度的前提下，可以获得更理想的检测精度，满足实际作业中的实时性需求。

步骤二，构建轻量化多目标跟踪器；

2.1设计基于Re-ID嵌入特征的数据关联模块；

假设目标检测器输出的两张视频帧图像分别为I^t-1与I^t，且

e^t＝Φ(f^t)，且

d^t＝D(e^t)，且

其中，d^t表示提取的下采样特征；D(·)表示下采样操作。

且

接着利用代价量计算跟踪偏移矩阵

(T1)分别使用池化核

与

与

与

(T2)

与

与

其代表着点(i,j)在那些位置的实际偏移值，即有：

其中，s表示特征图相对于原图的下采样倍率，本发明取s＝8。

(T4)已知

的维度为

因此对其进行倍率等于2的上采样操作，使之变为

其中，

β为超参数。

由于

与

与

2.2设计基于运动指导的特征传递模块；

①计算传递的特征；

首先，利用一层3×3Conv对G^C进行上采样，得到G^D。设

为DCN两个方向上的输入偏移量，其中K为DCN核的宽度和高度，本发明取K＝3。

其中，

表示哈达玛积运算。

接着，通过DCN即可计算得到传递特征(f′)^t-τ为：

(f′)^t-τ＝DCN[G^D,(f^*)^t-τ]，且

②进行特征增强；

其中，

T表示用于聚合的过去帧数量。

③设计损失函数；

对于多目标跟踪器的总体损失函数L有：

L＝L_DAM+L_det (10)

2.3生成轨迹；

为圆心、以M的宽高尺寸的几何平均值为半径的圆域内，

步骤三，搭建轻量化人体姿态估计器；

3.1设计网络结构及损失函数；

关键点相对于目标中心点的偏移误差

以及关键点离散化偏移误差

其中κ为人体关键点数，R₀为缩放因子。

其中，r表示由于卷积步长而产生的下采样因子；

表示向下取整函数。

其中，

表示真实人体关键点的高斯核，σ₀为与对应目标尺寸相关的标准差；Y_pre表示预测关键点的高斯核；N表示输入图像存在的关键点数量；α与β表示权重调节参数，本发明分别将其设置为α＝2.0，β＝4.0。

L_J＝(j′_x-j_x)+(j′_y-j_y) (13)

设人体关键点离散化偏移的损失函数为L_off，有：

L_hpe＝L_hm+L_J+L_off (16)

3.2进行推理检测；

可回归得到关键点的位置l_τ为：

根据人体关键点热点图

与关键点离散化偏移误差

其中，n_τ表示图中有n个第τ个人体关键点部位；l_τ′_,i表示图中第i个第τ个人体关键点部位的预测位置。

3.3设计人体关键点数据格式；

表1人体关键点名称及位置对应关系表

将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联，一方面多目标跟踪器对前后帧视频图像进行跟踪，获取跟踪目标人体的边界框位置信息，另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置，实现对人体姿态的跟踪。

步骤五，对模型进行训练及测试；

本发明使用某供应链公司提供的监控视频数据验证设计的模型的有效性。将监控视频数据按照4:1的方式随机划分成训练集和测试集，传入模型进行训练。其中，batch_size设置为32，训练epoch设置为2000，初始学习率为0.02，优化器为Adam，可以得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况。进一步利用测试集对模型的效果进行评估，得到模型在测试集上的表现，其中人体的多目标跟踪准确度MOTA为81.3％，多目标跟踪精确度MOTP为88.7％，人体姿态估计的平均精度均值mAP为94.8％。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种轻量型的多人姿态跟踪方法，包括如下步骤：

步骤一，设计轻量化目标检测器；

为了快速确定输入的视频帧序列中人体动作的起始帧，以及确定视频画面中人体的位置信息，为后续的轻量化人体姿态跟踪器提供跟踪目标区域，利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧序列进行目标检测；对CenterNet进行了轻量化改进，包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络，修改目标预测机制，为CenterNet的检测头网络增加自适应阈值预测子网络，使得模型在保证检测速度的前提下，能获得更理想的检测精度，满足实际作业中的实时性需求；

步骤二，构建轻量化多目标跟踪器；

2.1设计基于Re-ID嵌入特征的数据关联模块；

假设目标检测器输出的两张视频帧图像分别为I^t-1与I^t，且

通过DLA-34网络产生特征图f^t-1与f^t，随即将上述特征图传入由三层3×3Conv构成的卷积模块中提取Re-ID嵌入特征，对于f^t有：

e^t＝Φ(f^t)，且

其中，e^t表示提取的Re-ID嵌入特征；Φ(·)表示由三层3×3Conv构成的卷积模块；

然后利用Re-ID嵌入特征来构造代价量，代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度；其计算步骤有：

d^t＝D(e^t)，且

其中，d^t表示提取的下采样特征；D(·)表示下采样操作；

且

其中，C_ijkl表示特征图I^t上的点(i,j)与特征图I^t-1上的点(k,l)之间的代价量；

接着利用代价量计算跟踪偏移矩阵

该矩阵能够存储t时刻视频帧的每个点相对于其在(t-1)时刻的时空位移；对于特征图I^t上的点(i,j)，由代价量的计算方法可得到其对应的二维代价量

(T1)分别使用池化核

与

与

与

分别代表点(i,j)在第(t-1)帧某一指定的水平位置与垂直位置的概率大小；

(T2)

与

提供了当前帧的点(i,j)在过去帧上指定位置的概率，为了获取最终的偏移量，先定义了水平与垂直两个方向上的偏移模板分别为

与

其代表着点(i,j)在那些位置的实际偏移值，即有：

其中，s表示特征图相对于原图的下采样倍率；

(T4)已知

的维度为

因此对其进行倍率等于2的上采样操作，使之变为

以用作基于运动指导的特征传递模块的动态信息以及数据关联；

对于基于Re-ID嵌入特征的数据关联模块的训练过程，因为只有由三层3×3Conv构成的卷积模块Φ(·)进行学习，故数据关联模块的优化目标即学习到有效的Re-ID嵌入特征e；为了监督e，很多Re-ID模型会通过损失函数直接对其进行监督，而数据关联模块则通过监督代价量实现此目的，具体实现方法为：

当第t帧上处于(i,j)位置的目标点在第(t-1)帧上的(k,l)位置时，令Z_ijkl＝1，否则Z_ijkl＝0；然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块，有：

其中，

β为超参数；

由于

与

与

被优化到接近1时，它在强制一个目标点接近前一帧中的自己的同时，还排斥其他目标点和图像背景区域；

2.2设计基于运动指导的特征传递模块；

基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量G^C将运动线索从过去帧特征图f^t-τ变换传递到当前帧以完善、增强特征f^t；为此，通过单个可变形卷积DCN来实现高效的特征传递，进而聚合传递的特征来增强f^t；

①计算传递的特征；

首先，利用一层3×3Conv对G^C进行上采样，得到G^D；设

为DCN两个方向上的输入偏移量，其中K为DCN核的宽度和高度；

又考虑到人体姿态估计器是基于目标中心点特征而进行的，所以这里不直接对f^t-τ进行处理，而是将其与目标检测器(t-τ)时刻产生的目标中心热点图

做哈达玛积运算进行转换，以降低模型后续的计算量；在通道索引q，有：

其中，

表示哈达玛积运算；

接着，通过DCN即可计算得到传递特征(f′)^t-τ为：

(f′)^t-τ＝DCN[G^D,(f^*)^t-τ]，且

②进行特征增强；

鉴于当视频流中的人体被遮挡或者出现运动模糊时，会引发被跟踪目标丢失，此时可以将过去帧传递的特征(f′)^t-τ融合到当前帧来增强特征f^t，这样被遮挡的或者模糊的目标能变得清晰易读；设增强后的特征为(f⁰)^t，它通过加权求和得到，

其中，

T表示用于聚合的过去帧数量；

增强后的特征(f⁰)^t将被用于后续的检测头网络，对于人体目标，其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果，以完成检测、跟踪任务；

③设计损失函数；

对于多目标跟踪器的总体损失函数L有：

L＝L_DAM+L_det (10)

其中，L_DAM为数据关联模块的损失函数；L_det为检测头网络的损失函数；

2.3生成轨迹；

为圆心、以M的宽高尺寸的几何平均值为半径的圆域内，

表示视频帧I_t与视频帧I_t-1之间的跟踪偏移量；接着考虑M在上一轮数据关联中没有匹配上任何目标的情况，计算其Re-ID嵌入特征

与未匹配的检测框或者历史轨迹段的Re-ID嵌入特征之间的余弦相似度，M将与具有最高相似度且高于阈值的轨迹段关联；若经过两轮数据关联M都没有被匹配上，则将其视为新轨迹，并为其分配新的ID；

步骤三，搭建轻量化人体姿态估计器；

由于人体姿态估计问题的复杂性，目前大多数模型都会加大网络的层数、且使用较复杂的网络结构去挖掘人体姿态较深层的特征，这不可避免地增加了模型的参数量、计算量以及所需的显存大小；所以为了获取轻量化人体姿态估计器，使用自上而下的人体关键点检测算法，即先利用目标检测模型得到精确的人体边界框，然后采用基于目标中心点的人体关键点检测方法，显著降低模型的参数量和计算量，实现轻量化定位目标人体的关键点，完成人体动作空间特征提取；

3.1设计网络结构及损失函数；

假设输入图像I₀∈R^W×H×3，其中W表示输入图像的宽度，H表示输入图像的高度，由3个残差密集连接块组成的主干网络LRDN在提取I₀人体检测区域的深层特征后，将其输入到3个反卷积组构成的特征聚合网络内进行上采样操作；其中，每个反卷积组由一个步长为1的3×3标准卷积与一个步长为2的4×4反卷积组成；最后3个分支卷积网络分别用来预测人体关键点热点图

关键点相对于目标中心点的偏移误差

以及关键点离散化偏移误差

其中κ为人体关键点数，R₀为缩放因子；

其中，r表示由于卷积步长而产生的下采样因子；

表示向下取整函数；

网络训练关键点热点图的损失函数L_hm基于用于密集物体检测的焦点损失函数FocalLoss设计，即有：

其中，

表示真实人体关键点的高斯核，σ₀为与对应目标尺寸相关的标准差；Y_pre表示预测关键点的高斯核；N表示输入图像存在的关键点数量；α与β表示权重调节参数；

在处理人体关键点检测问题时，通常会先利用二维高斯函数在真实的关键点位置生成真实的热点图，然后将待检测的图像输入检测网络得到预测的热点图，同时训练预测热点图与真实热点图之间的损失值不断趋于0，从而实现人体关键点位置的准确估计；

为了保证每个人体的每个关键点能够准确地被分配给其所隶属的人体目标对象，设计的人体姿态估计器引入了每个关键点到人体目标中心点的偏移以作为关键点聚类的依据；同时，关键点相对于人体目标中心点的偏移误差采用L₁损失函数进行训练；假设关键点距离目标中心点的真实偏差为(j_x,j_y)，网络预测的偏差为(j′_x,j′_y)，则对于关键点距离人体目标中心点的损失函数有：

L_J＝(j′_x-j_x)+(j′_y-j_y) (13)

设人体关键点离散化偏移的损失函数为L_off，有：

L_hpe＝L_hm+L_J+L_off (16)

3.2进行推理检测；

可回归得到关键点的位置l_τ为：

根据人体关键点热点图

与关键点离散化偏移误差

其中，n_τ表示图中有n个第τ个人体关键点部位；l_τ′_,i表示图中第i个第τ个人体关键点部位的预测位置；

然后将回归位置l_τ与L_τ中的所有关键点进行关联，满足式(19)的关键点即为对应人体目标的第τ个关键点；

3.3设计人体关键点数据格式；

通过人体动作来进行姿态跟踪，在此过程中人体所做的动作隶属于肢体活动，人体面部关键点的信息在其中发挥的益处甚微，所以基于传统人体姿态识别模型Openpose应用的18个人体关键点结构设计了人体姿态估计器适用的人体关键点结构，同时，该结构对应的人体关键点名称及位置如表1所示；

表1人体关键点名称及位置对应关系表

通常情况下，人体关键点坐标数据中常常存在奇异数据，这会增加模型的训练时间，还容易导致模型无法收敛；为了规避这个问题，同时增强模型的泛化能力，这里对人体姿态估计器提取到的人体关键点坐标数据进行归一化处理后再用于后续模型的训练，具体做法为：

其中，x与y分别表示人体关键点在原始视频帧图像中的横坐标和纵坐标；W与H分别表示原始视频帧图像的宽度和高度；(x′,y′)表示人体关键点(x,y)归一化后的坐标；

普通的多目标跟踪只需对代表目标的某个关键点进行跟踪即可，但对人体姿态的跟踪则需要对组合成人体姿态的多个肢体关键点进行连续跟踪，所以这里将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联，一方面多目标跟踪器对前后帧视频图像进行跟踪，获取跟踪目标人体的边界框位置信息，另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置，实现对人体姿态的跟踪；

步骤五，对模型进行训练及测试；

将视频数据按照4:1的方式随机划分成训练集和测试集，传入模型进行训练；得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况；进一步利用测试集对模型的效果进行评估，得到模型在测试集上的表现，最后得到鲁棒性强的模型。

2.如权利要求1所述的一种轻量型的多人姿态跟踪方法，其特征在于：步骤(T2)中下采样倍率s＝8。

3.如权利要求1所述的一种轻量型的多人姿态跟踪方法，其特征在于：步骤①中，DCN核的宽度和高度K取值为：K＝3。

4.如权利要求1所述的一种轻量型的多人姿态跟踪方法，其特征在于：步骤3.1中，权重调节参数α与β分别设置为α＝2.0，β＝4.0。

5.如权利要求1所述的一种轻量型的多人姿态跟踪方法，其特征在于：步骤五中，将视频数据传入模型进行训练时，其中，batch_size设置为32，训练epoch设置为2000，初始学习率为0.02，优化器为Adam。