CN114724185A - 一种轻量型的多人姿态跟踪方法 - Google Patents

一种轻量型的多人姿态跟踪方法 Download PDF

Info

Publication number
CN114724185A
CN114724185A CN202210386007.6A CN202210386007A CN114724185A CN 114724185 A CN114724185 A CN 114724185A CN 202210386007 A CN202210386007 A CN 202210386007A CN 114724185 A CN114724185 A CN 114724185A
Authority
CN
China
Prior art keywords
human body
target
point
key point
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210386007.6A
Other languages
English (en)
Inventor
张烨
陈威慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210386007.6A priority Critical patent/CN114724185A/zh
Publication of CN114724185A publication Critical patent/CN114724185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Abstract

一种轻量型的多人姿态跟踪方法,包括如下步骤:步骤一,设计轻量化目标检测器;步骤二,构建轻量化多目标跟踪器;步骤三,搭建轻量化人体姿态估计器;步骤四,将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联;步骤五,对模型进行训练及测试。本发明在保证检测速度的前提下,获得更理想的检测精度,满足实际作业中的实时性需求;改善目标部分遮挡、运动模糊等情况下的目标检测质量,继而获得更好的跟踪效果;获取跟踪目标人体的边界框位置信息的同时检测人体各个关键点的位置,实现对多人姿态的轻量化跟踪。

Description

一种轻量型的多人姿态跟踪方法
技术领域
本发明涉及一种轻量化进行多人姿态跟踪的方法。
技术背景
作为人工智能范畴最重要的前沿分支之一的机器视觉技术在深度学习强大的表示学习的能力、高超的GPU并行计算能力以及海量的带标签数据资源的加持下在人机协同、模式识别等诸多领域得到了广泛的应用研究,与之相关的一个重要研究方向是对基于视频的多人姿态跟踪进行研究。目前大多数的多目标跟踪模型都是遵循本质上目标检测和目标跟踪相剥离的tracking-by-detection范式或者joint detection and tracking范式设计而成,研发一种联合检测和跟踪的端到端的多目标跟踪模型能使得目标检测结果与目标跟踪结果相辅相成,得到更优的识别效果。此外,视频数据比图像数据多了时间维度的信息,这也使得基于视频的多人姿态跟踪模型的计算量更为庞大,所以研发一种轻量型的多人姿态跟踪方法显得格外重要。
发明内容
针对上述问题,本发明提出一种轻量型的多人姿态跟踪方法。
本发明首先对传统CenterNet进行了轻量化改进,以此得到轻量化目标检测器,从而快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域。然后构建轻量化多目标跟踪器,该模型主要由数据关联模块和特征传递模块两部分组成,其中先通过数据关联模块中由DLA-34网络和三层3×3Conv构成的特征提取网络逐点提取Re-ID嵌入特征来构造代价量;然后利用代价量推测跟踪目标的偏移距离,此处获取的跟踪偏移量会把图中的所有特征整合并用于数据关联;接着通过构造基于运动指导的特征传递模块把跟踪偏移量视为运动线索将目标特征从前一帧传递到当前帧,被传递的特征会与当前帧的特征进行合并,以此提高当前的目标检测特征,实现通过目标跟踪信息来指导检测,检测结果有效地反馈给跟踪器的目的;最后将增强后的特征传入检测头网络,检测头网络由目标中心预测子网络、中心点偏移预测子网络、边界框预测子网络以及位移预测子网络四部分组成,其中目标中心预测子网络输出关键点热点图用于预测目标中心点可当作目标关键点的概率,中心点偏移预测子网络输出中心点由于下采样而带来的局部位置信息的偏移误差,边界框预测子网络输出预测目标对象的尺寸,而位移预测子网络则用以数据关联,即用来计算当前帧与过去帧之间的时空位移。接着搭建轻量化人体姿态估计器,这里使用自上而下的人体关键点检测算法,即先利用目标检测模型得到精确的人体边界框,然后采用基于目标中心点的人体关键点检测方法来定位目标人体的关键点。紧接着将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联,把目标检测器输出的视频帧图像作为模型的输入,得到每一帧图像中每个人体的13个关键点坐标值,实现对人体姿态的跟踪。最后使用训练集对模型进行训练,根据损失函数的收敛情况来调试模型的参数,防止梯度震荡,使用测试集对模型进行测试,判断模型的识别精度和识别速度,循环往复,完成模型的学习与修改,得到鲁棒性强的模型。
为了实现上述目的,本发明采用以下技术方案:
一种轻量型的多人姿态跟踪方法,包括如下步骤:
步骤一,设计轻量化目标检测器;
为了快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,本发明利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧序列进行目标检测。因为现实场景中的大多数视频帧图像存在背景复杂度高、相同画面以及不同画面中目标尺寸变化大等特点,又因为传统CenterNet对不同类别的目标对象共享局部位置偏移特征图与尺寸特征图,导致同一张特征图不得不学习数个量级的期望值,增添了网络的训练难度。为此,本发明对CenterNet进行了轻量化改进,主要包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,可以获得更理想的检测精度,满足实际作业中的实时性需求。
步骤二,构建轻量化多目标跟踪器;
2.1设计基于Re-ID嵌入特征的数据关联模块;
假设目标检测器输出的两张视频帧图像分别为It-1与It,且
Figure BDA0003593713700000021
它们通过DLA-34网络产生特征图ft-1与ft,随即将上述特征图传入由三层3×3Conv构成的卷积模块中提取Re-ID嵌入特征,对于ft有:
et=Φ(ft),且
Figure BDA0003593713700000022
其中,et表示提取的Re-ID嵌入特征;Φ(·)表示由三层3×3Conv构成的卷积模块。
然后利用Re-ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度。其计算步骤有:
(a)为了降低计算量,先用最大池化对Re-ID嵌入特征图进行下采样,得到:
dt=D(et),且
Figure BDA0003593713700000023
其中,dt表示提取的下采样特征;D(·)表示下采样操作。
(b)计算两个特征图It-1与It上任意两个点之间的相似度矩阵,即代价量,有:
Figure BDA0003593713700000024
Figure BDA0003593713700000025
其中,Cijkl表示特征图It上的点(i,j)与特征图It-1上的点(k,l)之间的代价量。
接着利用代价量计算跟踪偏移矩阵
Figure BDA0003593713700000026
该矩阵能够存储t时刻视频帧的每个点相对于其在(t-1)时刻的时空位移。对于特征图It上的点(i,j),由代价量的计算方法可得到其对应的二维代价量
Figure BDA0003593713700000027
它代表点(i,j)与特征图It-1上所有点之间的匹配相似度,利用Cij计算得到Gij∈R2的步骤有:
(T1)分别使用池化核
Figure BDA0003593713700000031
Figure BDA0003593713700000032
对Cij进行最大池化,然后使用Softmax函数进行标准化,得到向量
Figure BDA0003593713700000033
Figure BDA0003593713700000034
Figure BDA0003593713700000035
Figure BDA0003593713700000036
分别代表点(i,j)在第(t-1)帧某一指定的水平位置与垂直位置的概率大小。
(T2)
Figure BDA0003593713700000037
Figure BDA0003593713700000038
提供了当前帧的点(i,j)在过去帧上指定位置的概率,为了获取最终的偏移量,本发明先定义了水平与垂直两个方向上的偏移模板分别为
Figure BDA0003593713700000039
Figure BDA00035937137000000310
其代表着点(i,j)在那些位置的实际偏移值,即有:
Figure BDA00035937137000000311
其中,s表示特征图相对于原图的下采样倍率。
(T3)将相似度与实际偏移值进行点积运算,即可得到最终的跟踪偏移量Gij,有:
Figure BDA00035937137000000312
(T4)已知
Figure BDA00035937137000000313
的维度为
Figure BDA00035937137000000314
因此对其进行倍率等于2的上采样操作,使之变为
Figure BDA00035937137000000315
以用作基于运动指导的特征传递模块的动态信息以及数据关联。
对于基于Re-ID嵌入特征的数据关联模块的训练过程,因为只有由三层3×3Conv构成的卷积模块Φ(·)进行学习,故数据关联模块的优化目标即学习到有效的Re-ID嵌入特征e。为了监督e,很多Re-ID模型会通过损失函数直接对其进行监督,而数据关联模块则通过监督代价量实现此目的,具体实现方法为:
当第t帧上处于(i,j)位置的目标点在第(t-1)帧上的(k,l)位置时,令Zijkl=1,否则Zijkl=0。然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块,有:
Figure BDA00035937137000000316
其中,
Figure BDA00035937137000000317
β为超参数。
由于
Figure BDA00035937137000000318
Figure BDA00035937137000000319
是使用Softmax函数进行标准化得到的,如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度,还包含点(i,j)与过去帧上所有点之间的相似度,这就意味着当
Figure BDA00035937137000000320
Figure BDA00035937137000000321
被优化到接近1时,它在强制一个目标点接近前一帧中的自己的同时,还排斥其他目标点和图像背景区域。
区别于传统的Re-ID模型,本发明的数据关联模块不仅仅要求网络学习的Re-ID嵌入特征考虑类内差异,还要求其考虑类间差异,这种处理方式能较好地兼容目标检测的损失函数并且不会破坏检测结果,进而实现通过完整的跟踪信息来指导目标检测,检测结果能有效地反馈给跟踪器。此外,因为跟踪偏移量是由外观相似度计算而来的,它能在较大运动范围内跟踪目标对象,所以它也是非常有效的运动线索,而同时使用外观相似度和跟踪偏移量,可以保证网络获取更加准确的数据关联。
2.2设计基于运动指导的特征传递模块;
基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量GC将运动线索从过去帧特征图ft-τ变换传递到当前帧以完善、增强特征ft。为此,本发明通过单个可变形卷积DCN来实现高效的特征传递,进而聚合传递的特征来增强ft
①计算传递的特征;
首先,利用一层3×3Conv对GC进行上采样,得到GD。设
Figure BDA0003593713700000041
为DCN两个方向上的输入偏移量,其中K为DCN核的宽度和高度。
又考虑到本发明的人体姿态估计器是基于目标中心点特征而进行的,所以这里不直接对ft-τ进行处理,而是将其与目标检测器(t-τ)时刻产生的目标中心热点图
Figure BDA0003593713700000042
做哈达玛积运算进行转换,以降低模型后续的计算量。在通道索引q,有:
Figure BDA0003593713700000043
其中,
Figure BDA0003593713700000044
表示哈达玛积运算。
接着,通过DCN即可计算得到传递特征(f′)t-τ为:
(f′)t-τ=DCN[GD,(f*)t-τ],且
Figure BDA0003593713700000045
②进行特征增强;
鉴于当视频流中的人体被遮挡或者出现运动模糊时,会引发被跟踪目标丢失,此时可以将过去帧传递的特征(f′)t-τ融合到当前帧来增强特征ft,这样被遮挡的或者模糊的目标能变得清晰易读。设增强后的特征为(f0)t,它通过加权求和得到,
Figure BDA0003593713700000046
其中,
Figure BDA0003593713700000047
为第t帧的自适应权重,由两层卷积加Softmax函数预测得到,且
Figure BDA0003593713700000048
T表示用于聚合的过去帧数量。
增强后的特征(f0)t将被用于后续的检测头网络,对于人体目标,其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果,以完成检测、跟踪任务。
③设计损失函数;
对于多目标跟踪器的总体损失函数L有:
L=LDAM+Ldet (10)
其中,LDAM为数据关联模块的损失函数;Ldet为检测头网络的损失函数。
2.3生成轨迹;
对于t帧上处于位置(m,n)的检测框M,首先将其与(t-1)帧上未匹配的检测框M′关联,其中要求M′必须在以
Figure BDA0003593713700000051
为圆心、以M的宽高尺寸的几何平均值为半径的圆域内,
Figure BDA0003593713700000052
表示视频帧It与视频帧It-1之间的跟踪偏移量。接着考虑M在上一轮数据关联中没有匹配上任何目标的情况,计算其Re-ID嵌入特征
Figure BDA0003593713700000053
与未匹配的检测框或者历史轨迹段的Re-ID嵌入特征之间的余弦相似度,M将与具有最高相似度且高于阈值的轨迹段关联。若经过两轮数据关联M都没有被匹配上,则将其视为新轨迹,并为其分配新的ID。
步骤三,搭建轻量化人体姿态估计器;
由于人体姿态估计问题的复杂性,目前大多数模型都会加大网络的层数、且使用较复杂的网络结构去挖掘人体姿态较深层的特征,这不可避免地增加了模型的参数量、计算量以及所需的显存大小。所以为了获取轻量化人体姿态估计器,本发明使用自上而下的人体关键点检测算法,即先利用目标检测模型得到精确的人体边界框,然后采用基于目标中心点的人体关键点检测方法,显著降低模型的参数量和计算量,实现轻量化定位目标人体的关键点,完成人体动作空间特征提取。
3.1设计网络结构及损失函数;
假设输入图像I0∈RW×H×3,其中W表示输入图像的宽度,H表示输入图像的高度,由3个残差密集连接块组成的主干网络LRDN在提取I0人体检测区域的深层特征后,将其输入到3个反卷积组构成的特征聚合网络内进行上采样操作。其中,每个反卷积组由一个步长为1的3×3标准卷积与一个步长为2的4×4反卷积组成。最后3个分支卷积网络分别用来预测人体关键点热点图
Figure BDA0003593713700000054
关键点相对于目标中心点的偏移误差
Figure BDA0003593713700000055
以及关键点离散化偏移误差
Figure BDA0003593713700000056
其中κ为人体关键点数,R0为缩放因子。
假设目标人体的关键点p(x,y)在对应预测热点图上的位置坐标为p′(x′,y′),则有:
Figure BDA0003593713700000057
其中,r表示由于卷积步长而产生的下采样因子;
Figure BDA0003593713700000058
表示向下取整函数。
网络训练关键点热点图的损失函数Lhm基于用于密集物体检测的焦点损失函数Focal Loss设计,即有:
Figure BDA0003593713700000061
其中,
Figure BDA0003593713700000062
表示真实人体关键点的高斯核,σ0为与对应目标尺寸相关的标准差;Ypre表示预测关键点的高斯核;N表示输入图像存在的关键点数量;α与β表示权重调节参数。
在处理人体关键点检测问题时,通常会先利用二维高斯函数在真实的关键点位置生成真实的热点图,然后将待检测的图像输入检测网络得到预测的热点图,同时训练预测热点图与真实热点图之间的损失值不断趋于0,从而实现人体关键点位置的准确估计。
为了保证每个人体的每个关键点能够准确地被分配给其所隶属的人体目标对象,本发明设计的人体姿态估计器引入了每个关键点到人体目标中心点的偏移以作为关键点聚类的依据。同时,关键点相对于人体目标中心点的偏移误差采用L1损失函数进行训练。假设关键点距离目标中心点的真实偏差为(jx,jy),网络预测的偏差为(j′x,j′y),则对于关键点距离人体目标中心点的损失函数有:
LJ=(j′x-jx)+(j′y-jy) (13)
在执行步长为2的卷积时会对人体各关键点的具体位置坐标产生离散化偏移误差,所以这里设计的人体姿态估计器还对模型执行卷积步长时产生的偏移量进行了预测,故人体关键点的最终预测坐标值是基于热点图的检测坐标与预测的偏移量之和,则对于关键点p(x,y)的离散化偏移误差Mp有:
Figure BDA0003593713700000063
设人体关键点离散化偏移的损失函数为Loff,有:
Figure BDA0003593713700000064
综上,利用式(12)、式(13)与式(15)可得人体姿态估计器的损失函数Lhpe为:
Lhpe=Lhm+LJ+Loff (16)
3.2进行推理检测;
在检测阶段,假设模型检测到的人体目标中心点为(x0,y0),则根据关键点相对于人体目标中心点的偏移
Figure BDA0003593713700000065
可回归得到关键点的位置lτ为:
Figure BDA0003593713700000066
根据人体关键点热点图
Figure BDA0003593713700000067
与关键点离散化偏移误差
Figure BDA0003593713700000068
之和能够得到热点图中所有点在输入图像分辨率下的预测位置,接着设阈值为0.1,将热点图上响应值小于阈值的点直接去除,由此可提取到热点图中所有的第τ个人体关键点部位的预测位置Lτ为:
Figure BDA0003593713700000071
其中,nτ表示图中有n个第τ个人体关键点部位;l′τ,i表示图中第i个第τ个人体关键点部位的预测位置。
然后将回归位置lτ与Lτ中的所有关键点进行关联,满足式(19)的关键点即为对应人体目标的第τ个关键点。
Figure BDA0003593713700000072
3.3设计人体关键点数据格式;
本发明主要通过人体动作来进行姿态跟踪,在此过程中人体所做的动作隶属于肢体活动,人体面部关键点的信息在其中发挥的益处甚微,所以本发明基于传统人体姿态识别模型Openpose应用的18个人体关键点结构设计了人体姿态估计器适用的人体关键点结构,同时,该结构对应的人体关键点名称及位置如表1所示。
表1人体关键点名称及位置对应关系表
Figure BDA0003593713700000073
通常情况下,人体关键点坐标数据中常常存在奇异数据,这会增加模型的训练时间,还容易导致模型无法收敛。为了规避这个问题,同时增强模型的泛化能力,这里对人体姿态估计器提取到的人体关键点坐标数据进行归一化处理后再用于后续模型的训练,具体做法为:
Figure BDA0003593713700000081
其中,x与y分别表示人体关键点在原始视频帧图像中的横坐标和纵坐标;W与H分别表示原始视频帧图像的宽度和高度;(x′,y′)表示人体关键点(x,y)归一化后的坐标。
步骤四,将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联;
普通的多目标跟踪只需对代表目标的某个关键点进行跟踪即可,但对人体姿态的跟踪则需要对组合成人体姿态的多个肢体关键点进行连续跟踪,所以这里将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联,一方面多目标跟踪器对前后帧视频图像进行跟踪,获取跟踪目标人体的边界框位置信息,另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置,实现对人体姿态的跟踪。
步骤五,对模型进行训练及测试;
将视频数据按照4:1的方式随机划分成训练集和测试集,传入模型进行训练。可以得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况。进一步利用测试集对模型的效果进行评估,得到模型在测试集上的表现,最后得到鲁棒性强的模型。
优选地,步骤(T2)中下采样倍率s=8。
优选地,步骤①中,DCN核的宽度和高度K取值为:K=3。
优选地,步骤3.1中,权重调节参数α与β分别设置为α=2.0,β=4.0。
优选地,步骤五中,将视频数据传入模型进行训练时,其中,batch_size设置为32,训练epoch设置为2000,初始学习率为0.02,优化器为Adam。
本发明的优点是:
本发明基于机器视觉技术,提出了一种轻量型的多人姿态跟踪方法。其突出特点有:其一,对传统CenterNet进行了轻量化改进,用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改了目标预测机制,为CenterNet的检测头网络增加了自适应阈值预测子网络,使得模型在保证检测速度的前提下,获得更理想的检测精度,满足实际作业中的实时性需求。其二,本发明设计的多目标跟踪器是一个联合检测和跟踪的端到端模型,其不仅可以通过完整的跟踪信息来指导目标检测,还可以把目标检测结果有效地反馈给跟踪模型,实现改善目标部分遮挡、运动模糊等情况下的目标检测质量,继而获得更好的跟踪效果,助力识别任务的完成。其三,设计了多目标跟踪器与人体姿态估计器相并联的多人姿态跟踪器,在对前后帧视频图像进行跟踪,获取跟踪目标人体的边界框位置信息的同时检测人体各个关键点的位置,实现对多人姿态的轻量化跟踪。
附图说明
图1是本发明轻量化多人姿态跟踪模型的总体框架;
图2是本发明的人体姿态估计器的网络结构;
图3a~图3c是本发明的人体姿态估计器的输出特征图;其中图3a是关键点热点图特征图,图3b是关键点位置偏移特征图,图3c是关键点离散偏移特征图;
图4a~图4b是本发明的人体关键点结构图;其中图4a是Openpose算法应用的人体关键点结构,图4b是本发明设计的人体关键点结构;
图5是本发明的人体姿态跟踪器在训练过程中的准确率与损失函数的收敛图。
具体实施方式
为了验证本发明提出的方法的可行性和优越性,现结合应用场景对本发明做进一步的阐述:
一种轻量型的多人姿态跟踪方法,包括如下步骤:
步骤一,设计轻量化目标检测器;
为了快速获取视频中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,本发明利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧图像进行目标检测。因为现实场景中的大多数视频帧图像存在背景复杂度高、相同画面以及不同画面中目标尺寸变化大等特点,又因为传统CenterNet对不同类别的目标对象共享局部位置偏移特征图与尺寸特征图,导致同一张特征图不得不学习数个量级的期望值,增添了网络的训练难度。为此,本发明对CenterNet进行了轻量化改进,主要包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,可以获得更理想的检测精度,满足实际作业中的实时性需求。
步骤二,构建轻量化多目标跟踪器;
2.1设计基于Re-ID嵌入特征的数据关联模块;
假设目标检测器输出的两张视频帧图像分别为It-1与It,且
Figure BDA0003593713700000091
它们通过DLA-34网络产生特征图ft-1与ft,随即将上述特征图传入由三层3×3Conv构成的卷积模块中提取Re-ID嵌入特征,对于ft有:
et=Φ(ft),且
Figure BDA0003593713700000092
其中,et表示提取的Re-ID嵌入特征;Φ(·)表示由三层3×3Conv构成的卷积模块。
然后利用Re-ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度。其计算步骤有:
(a)为了降低计算量,先用最大池化对Re-ID嵌入特征图进行下采样,得到:
dt=D(et),且
Figure BDA0003593713700000093
其中,dt表示提取的下采样特征;D(·)表示下采样操作。
(b)计算两个特征图It-1与It上任意两个点之间的相似度矩阵,即代价量,有:
Figure BDA0003593713700000094
Figure BDA0003593713700000095
其中,Cijkl表示特征图It上的点(i,j)与特征图It-1上的点(k,l)之间的代价量。
接着利用代价量计算跟踪偏移矩阵
Figure BDA0003593713700000101
该矩阵能够存储t时刻视频帧的每个点相对于其在(t-1)时刻的时空位移。对于特征图It上的点(i,j),由代价量的计算方法可得到其对应的二维代价量
Figure BDA0003593713700000102
它代表点(i,j)与特征图It-1上所有点之间的匹配相似度,利用Cij计算得到Gij∈R2的步骤有:
(T1)分别使用池化核
Figure BDA0003593713700000103
Figure BDA0003593713700000104
对Cij进行最大池化,然后使用Softmax函数进行标准化,得到向量
Figure BDA0003593713700000105
Figure BDA0003593713700000106
Figure BDA0003593713700000107
Figure BDA0003593713700000108
分别代表点(i,j)在第(t-1)帧某一指定的水平位置与垂直位置的概率大小。
(T2)
Figure BDA0003593713700000109
Figure BDA00035937137000001010
提供了当前帧的点(i,j)在过去帧上指定位置的概率,为了获取最终的偏移量,本发明先定义了水平与垂直两个方向上的偏移模板分别为
Figure BDA00035937137000001011
Figure BDA00035937137000001012
其代表着点(i,j)在那些位置的实际偏移值,即有:
Figure BDA00035937137000001013
其中,s表示特征图相对于原图的下采样倍率,本发明取s=8。
(T3)将相似度与实际偏移值进行点积运算,即可得到最终的跟踪偏移量Gij,有:
Figure BDA00035937137000001014
(T4)已知
Figure BDA00035937137000001015
的维度为
Figure BDA00035937137000001016
因此对其进行倍率等于2的上采样操作,使之变为
Figure BDA00035937137000001017
以用作基于运动指导的特征传递模块的动态信息以及数据关联。
对于基于Re-ID嵌入特征的数据关联模块的训练过程,因为只有由三层3×3Conv构成的卷积模块Φ(·)进行学习,故数据关联模块的优化目标即学习到有效的Re-ID嵌入特征e。为了监督e,很多Re-ID模型会通过损失函数直接对其进行监督,而数据关联模块则通过监督代价量实现此目的,具体实现方法为:
当第t帧上处于(i,j)位置的目标点在第(t-1)帧上的(k,l)位置时,令Zijkl=1,否则Zijkl=0。然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块,有:
Figure BDA00035937137000001018
其中,
Figure BDA00035937137000001019
β为超参数。
由于
Figure BDA00035937137000001020
Figure BDA00035937137000001021
是使用Softmax函数进行标准化得到的,如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度,还包含点(i,j)与过去帧上所有点之间的相似度,这就意味着当
Figure BDA0003593713700000111
Figure BDA0003593713700000112
被优化到接近1时,它在强制一个目标点接近前一帧中的自己的同时,还排斥其他目标点和图像背景区域。
区别于传统的Re-ID模型,本发明的数据关联模块不仅仅要求网络学习的Re-ID嵌入特征考虑类内差异,还要求其考虑类间差异,这种处理方式能较好地兼容目标检测的损失函数并且不会破坏检测结果,进而实现通过完整的跟踪信息来指导目标检测,检测结果能有效地反馈给跟踪器。此外,因为跟踪偏移量是由外观相似度计算而来的,它能在较大运动范围内跟踪目标对象,所以它也是非常有效的运动线索,而同时使用外观相似度和跟踪偏移量,可以保证网络获取更加准确的数据关联。
2.2设计基于运动指导的特征传递模块;
基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量GC将运动线索从过去帧特征图ft-τ变换传递到当前帧以完善、增强特征ft。为此,本发明通过单个可变形卷积DCN来实现高效的特征传递,进而聚合传递的特征来增强ft
①计算传递的特征;
首先,利用一层3×3Conv对GC进行上采样,得到GD。设
Figure BDA0003593713700000113
为DCN两个方向上的输入偏移量,其中K为DCN核的宽度和高度,本发明取K=3。
又考虑到本发明的人体姿态估计器是基于目标中心点特征而进行的,所以这里不直接对ft-τ进行处理,而是将其与目标检测器(t-τ)时刻产生的目标中心热点图
Figure BDA0003593713700000114
做哈达玛积运算进行转换,以降低模型后续的计算量。在通道索引q,有:
Figure BDA0003593713700000115
其中,
Figure BDA0003593713700000116
表示哈达玛积运算。
接着,通过DCN即可计算得到传递特征(f′)t-τ为:
(f′)t-τ=DCN[GD,(f*)t-τ],且
Figure BDA0003593713700000117
②进行特征增强;
鉴于当视频流中的人体被遮挡或者出现运动模糊时,会引发被跟踪目标丢失,此时可以将过去帧传递的特征(f′)t-τ融合到当前帧来增强特征ft,这样被遮挡的或者模糊的目标能变得清晰易读。设增强后的特征为(f0)t,它通过加权求和得到,
Figure BDA0003593713700000118
其中,
Figure BDA0003593713700000119
为第t帧的自适应权重,由两层卷积加Softmax函数预测得到,且
Figure BDA0003593713700000121
T表示用于聚合的过去帧数量。
增强后的特征(f0)t将被用于后续的检测头网络,对于人体目标,其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果,以完成检测、跟踪任务。
③设计损失函数;
对于多目标跟踪器的总体损失函数L有:
L=LDAM+Ldet (10)
其中,LDAM为数据关联模块的损失函数;Ldet为检测头网络的损失函数。
2.3生成轨迹;
对于t帧上处于位置(m,n)的检测框M,首先将其与(t-1)帧上未匹配的检测框M′关联,其中要求M′必须在以
Figure BDA0003593713700000128
为圆心、以M的宽高尺寸的几何平均值为半径的圆域内,
Figure BDA0003593713700000129
表示视频帧It与视频帧It-1之间的跟踪偏移量。接着考虑M在上一轮数据关联中没有匹配上任何目标的情况,计算其Re-ID嵌入特征
Figure BDA0003593713700000127
与未匹配的检测框或者历史轨迹段的Re-ID嵌入特征之间的余弦相似度,M将与具有最高相似度且高于阈值的轨迹段关联。若经过两轮数据关联M都没有被匹配上,则将其视为新轨迹,并为其分配新的ID。
步骤三,搭建轻量化人体姿态估计器;
由于人体姿态估计问题的复杂性,目前大多数模型都会加大网络的层数、且使用较复杂的网络结构去挖掘人体姿态较深层的特征,这不可避免地增加了模型的参数量、计算量以及所需的显存大小。所以为了获取轻量化人体姿态估计器,本发明使用自上而下的人体关键点检测算法,即先利用目标检测模型得到精确的人体边界框,然后采用基于目标中心点的人体关键点检测方法,显著降低模型的参数量和计算量,实现轻量化定位目标人体的关键点,完成人体动作空间特征提取。
3.1设计网络结构及损失函数;
假设输入图像I0∈RW×H×3,其中W表示输入图像的宽度,H表示输入图像的高度,由3个残差密集连接块组成的主干网络LRDN在提取I0人体检测区域的深层特征后,将其输入到3个反卷积组构成的特征聚合网络内进行上采样操作。其中,每个反卷积组由一个步长为1的3×3标准卷积与一个步长为2的4×4反卷积组成。最后3个分支卷积网络分别用来预测人体关键点热点图
Figure BDA0003593713700000122
关键点相对于目标中心点的偏移误差
Figure BDA0003593713700000123
以及关键点离散化偏移误差
Figure BDA0003593713700000124
其中κ为人体关键点数,R0为缩放因子。
假设目标人体的关键点p(x,y)在对应预测热点图上的位置坐标为p′(x′,y′),则有:
Figure BDA0003593713700000125
其中,r表示由于卷积步长而产生的下采样因子;
Figure BDA0003593713700000126
表示向下取整函数。
网络训练关键点热点图的损失函数Lhm基于用于密集物体检测的焦点损失函数Focal Loss设计,即有:
Figure BDA0003593713700000131
其中,
Figure BDA0003593713700000132
表示真实人体关键点的高斯核,σ0为与对应目标尺寸相关的标准差;Ypre表示预测关键点的高斯核;N表示输入图像存在的关键点数量;α与β表示权重调节参数,本发明分别将其设置为α=2.0,β=4.0。
在处理人体关键点检测问题时,通常会先利用二维高斯函数在真实的关键点位置生成真实的热点图,然后将待检测的图像输入检测网络得到预测的热点图,同时训练预测热点图与真实热点图之间的损失值不断趋于0,从而实现人体关键点位置的准确估计。
为了保证每个人体的每个关键点能够准确地被分配给其所隶属的人体目标对象,本发明设计的人体姿态估计器引入了每个关键点到人体目标中心点的偏移以作为关键点聚类的依据。同时,关键点相对于人体目标中心点的偏移误差采用L1损失函数进行训练。假设关键点距离目标中心点的真实偏差为(jx,jy),网络预测的偏差为(j′x,j′y),则对于关键点距离人体目标中心点的损失函数有:
LJ=(j′x-jx)+(j′y-jy) (13)
在执行步长为2的卷积时会对人体各关键点的具体位置坐标产生离散化偏移误差,所以这里设计的人体姿态估计器还对模型执行卷积步长时产生的偏移量进行了预测,故人体关键点的最终预测坐标值是基于热点图的检测坐标与预测的偏移量之和,则对于关键点p(x,y)的离散化偏移误差Mp有:
Figure BDA0003593713700000133
设人体关键点离散化偏移的损失函数为Loff,有:
Figure BDA0003593713700000134
综上,利用式(12)、式(13)与式(15)可得人体姿态估计器的损失函数Lhpe为:
Lhpe=Lhm+LJ+Loff (16)
3.2进行推理检测;
在检测阶段,假设模型检测到的人体目标中心点为(x0,y0),则根据关键点相对于人体目标中心点的偏移
Figure BDA0003593713700000135
可回归得到关键点的位置lτ为:
Figure BDA0003593713700000136
根据人体关键点热点图
Figure BDA0003593713700000141
与关键点离散化偏移误差
Figure BDA0003593713700000142
之和能够得到热点图中所有点在输入图像分辨率下的预测位置,接着设阈值为0.1,将热点图上响应值小于阈值的点直接去除,由此可提取到热点图中所有的第τ个人体关键点部位的预测位置Lτ为:
Figure BDA0003593713700000143
其中,nτ表示图中有n个第τ个人体关键点部位;lτ,i表示图中第i个第τ个人体关键点部位的预测位置。
然后将回归位置lτ与Lτ中的所有关键点进行关联,满足式(19)的关键点即为对应人体目标的第τ个关键点。
Figure BDA0003593713700000144
3.3设计人体关键点数据格式;
本发明主要通过人体动作来进行姿态跟踪,在此过程中人体所做的动作隶属于肢体活动,人体面部关键点的信息在其中发挥的益处甚微,所以本发明基于传统人体姿态识别模型Openpose应用的18个人体关键点结构设计了人体姿态估计器适用的人体关键点结构,同时,该结构对应的人体关键点名称及位置如表1所示。
表1人体关键点名称及位置对应关系表
Figure BDA0003593713700000145
通常情况下,人体关键点坐标数据中常常存在奇异数据,这会增加模型的训练时间,还容易导致模型无法收敛。为了规避这个问题,同时增强模型的泛化能力,这里对人体姿态估计器提取到的人体关键点坐标数据进行归一化处理后再用于后续模型的训练,具体做法为:
Figure BDA0003593713700000151
其中,x与y分别表示人体关键点在原始视频帧图像中的横坐标和纵坐标;W与H分别表示原始视频帧图像的宽度和高度;(x′,y′)表示人体关键点(x,y)归一化后的坐标。
步骤四,将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联;
将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联,一方面多目标跟踪器对前后帧视频图像进行跟踪,获取跟踪目标人体的边界框位置信息,另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置,实现对人体姿态的跟踪。
步骤五,对模型进行训练及测试;
本发明使用某供应链公司提供的监控视频数据验证设计的模型的有效性。将监控视频数据按照4:1的方式随机划分成训练集和测试集,传入模型进行训练。其中,batch_size设置为32,训练epoch设置为2000,初始学习率为0.02,优化器为Adam,可以得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况。进一步利用测试集对模型的效果进行评估,得到模型在测试集上的表现,其中人体的多目标跟踪准确度MOTA为81.3%,多目标跟踪精确度MOTP为88.7%,人体姿态估计的平均精度均值mAP为94.8%。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种轻量型的多人姿态跟踪方法,包括如下步骤:
步骤一,设计轻量化目标检测器;
为了快速确定输入的视频帧序列中人体动作的起始帧,以及确定视频画面中人体的位置信息,为后续的轻量化人体姿态跟踪器提供跟踪目标区域,利用anchor-free和NMS-free的目标检测模型CenterNet对视频帧序列进行目标检测;对CenterNet进行了轻量化改进,包括用轻量化残差密集连接网络LRDN来充当CenterNet的主干网络,修改目标预测机制,为CenterNet的检测头网络增加自适应阈值预测子网络,使得模型在保证检测速度的前提下,能获得更理想的检测精度,满足实际作业中的实时性需求;
步骤二,构建轻量化多目标跟踪器;
2.1设计基于Re-ID嵌入特征的数据关联模块;
假设目标检测器输出的两张视频帧图像分别为It-1与It,且
Figure FDA0003593713690000011
通过DLA-34网络产生特征图ft-1与ft,随即将上述特征图传入由三层3×3Conv构成的卷积模块中提取Re-ID嵌入特征,对于ft有:
et=Φ(ft),且
Figure FDA0003593713690000012
其中,et表示提取的Re-ID嵌入特征;Φ(·)表示由三层3×3Conv构成的卷积模块;
然后利用Re-ID嵌入特征来构造代价量,代价量本质上是用来保存两帧特征图上每两个点之间的匹配相似度;其计算步骤有:
(a)为了降低计算量,先用最大池化对Re-ID嵌入特征图进行下采样,得到:
dt=D(et),且
Figure FDA0003593713690000013
其中,dt表示提取的下采样特征;D(·)表示下采样操作;
(b)计算两个特征图It-1与It上任意两个点之间的相似度矩阵,即代价量,有:
Figure FDA0003593713690000014
Figure FDA0003593713690000015
其中,Cijkl表示特征图It上的点(i,j)与特征图It-1上的点(k,l)之间的代价量;
接着利用代价量计算跟踪偏移矩阵
Figure FDA0003593713690000016
该矩阵能够存储t时刻视频帧的每个点相对于其在(t-1)时刻的时空位移;对于特征图It上的点(i,j),由代价量的计算方法可得到其对应的二维代价量
Figure FDA0003593713690000017
它代表点(i,j)与特征图It-1上所有点之间的匹配相似度,利用Cij计算得到Gij∈R2的步骤有:
(T1)分别使用池化核
Figure FDA0003593713690000021
Figure FDA0003593713690000022
对Cij进行最大池化,然后使用Softmax函数进行标准化,得到向量
Figure FDA0003593713690000023
Figure FDA0003593713690000024
Figure FDA0003593713690000025
Figure FDA0003593713690000026
分别代表点(i,j)在第(t-1)帧某一指定的水平位置与垂直位置的概率大小;
(T2)
Figure FDA0003593713690000027
Figure FDA0003593713690000028
提供了当前帧的点(i,j)在过去帧上指定位置的概率,为了获取最终的偏移量,先定义了水平与垂直两个方向上的偏移模板分别为
Figure FDA0003593713690000029
Figure FDA00035937136900000210
其代表着点(i,j)在那些位置的实际偏移值,即有:
Figure FDA00035937136900000211
其中,s表示特征图相对于原图的下采样倍率;
(T3)将相似度与实际偏移值进行点积运算,即可得到最终的跟踪偏移量Gij,有:
Figure FDA00035937136900000212
(T4)已知
Figure FDA00035937136900000213
的维度为
Figure FDA00035937136900000214
因此对其进行倍率等于2的上采样操作,使之变为
Figure FDA00035937136900000215
以用作基于运动指导的特征传递模块的动态信息以及数据关联;
对于基于Re-ID嵌入特征的数据关联模块的训练过程,因为只有由三层3×3Conv构成的卷积模块Φ(·)进行学习,故数据关联模块的优化目标即学习到有效的Re-ID嵌入特征e;为了监督e,很多Re-ID模型会通过损失函数直接对其进行监督,而数据关联模块则通过监督代价量实现此目的,具体实现方法为:
当第t帧上处于(i,j)位置的目标点在第(t-1)帧上的(k,l)位置时,令Zijkl=1,否则Zijkl=0;然后采用Focal Loss形式的逻辑回归损失函数来训练数据关联模块,有:
Figure FDA00035937136900000216
其中,
Figure FDA00035937136900000217
β为超参数;
由于
Figure FDA00035937136900000218
Figure FDA00035937136900000219
是使用Softmax函数进行标准化得到的,如此二者不仅仅包含点(i,j)与点(k,l)之间的相似度,还包含点(i,j)与过去帧上所有点之间的相似度,这就意味着当
Figure FDA0003593713690000031
Figure FDA0003593713690000032
被优化到接近1时,它在强制一个目标点接近前一帧中的自己的同时,还排斥其他目标点和图像背景区域;
2.2设计基于运动指导的特征传递模块;
基于运动指导的特征传递模块主要是用来根据数据关联模块生成的跟踪偏移量GC将运动线索从过去帧特征图ft-τ变换传递到当前帧以完善、增强特征ft;为此,通过单个可变形卷积DCN来实现高效的特征传递,进而聚合传递的特征来增强ft
①计算传递的特征;
首先,利用一层3×3Conv对GC进行上采样,得到GD;设
Figure FDA0003593713690000033
为DCN两个方向上的输入偏移量,其中K为DCN核的宽度和高度;
又考虑到人体姿态估计器是基于目标中心点特征而进行的,所以这里不直接对ft-τ进行处理,而是将其与目标检测器(t-τ)时刻产生的目标中心热点图
Figure FDA0003593713690000034
做哈达玛积运算进行转换,以降低模型后续的计算量;在通道索引q,有:
Figure FDA0003593713690000035
其中,
Figure FDA0003593713690000036
表示哈达玛积运算;
接着,通过DCN即可计算得到传递特征(f′)t-τ为:
(f′)t-τ=DCN[GD,(f*)t-τ],且
Figure FDA0003593713690000037
②进行特征增强;
鉴于当视频流中的人体被遮挡或者出现运动模糊时,会引发被跟踪目标丢失,此时可以将过去帧传递的特征(f′)t-τ融合到当前帧来增强特征ft,这样被遮挡的或者模糊的目标能变得清晰易读;设增强后的特征为(f0)t,它通过加权求和得到,
Figure FDA0003593713690000038
其中,
Figure FDA0003593713690000039
为第t帧的自适应权重,由两层卷积加Softmax函数预测得到,且
Figure FDA00035937136900000310
T表示用于聚合的过去帧数量;
增强后的特征(f0)t将被用于后续的检测头网络,对于人体目标,其在轻量化人体姿态估计器的辅助下生成人体关键点提取结果,以完成检测、跟踪任务;
③设计损失函数;
对于多目标跟踪器的总体损失函数L有:
L=LDAM+Ldet (10)
其中,LDAM为数据关联模块的损失函数;Ldet为检测头网络的损失函数;
2.3生成轨迹;
对于t帧上处于位置(m,n)的检测框M,首先将其与(t-1)帧上未匹配的检测框M′关联,其中要求M′必须在以
Figure FDA0003593713690000041
为圆心、以M的宽高尺寸的几何平均值为半径的圆域内,
Figure FDA0003593713690000042
表示视频帧It与视频帧It-1之间的跟踪偏移量;接着考虑M在上一轮数据关联中没有匹配上任何目标的情况,计算其Re-ID嵌入特征
Figure FDA0003593713690000043
与未匹配的检测框或者历史轨迹段的Re-ID嵌入特征之间的余弦相似度,M将与具有最高相似度且高于阈值的轨迹段关联;若经过两轮数据关联M都没有被匹配上,则将其视为新轨迹,并为其分配新的ID;
步骤三,搭建轻量化人体姿态估计器;
由于人体姿态估计问题的复杂性,目前大多数模型都会加大网络的层数、且使用较复杂的网络结构去挖掘人体姿态较深层的特征,这不可避免地增加了模型的参数量、计算量以及所需的显存大小;所以为了获取轻量化人体姿态估计器,使用自上而下的人体关键点检测算法,即先利用目标检测模型得到精确的人体边界框,然后采用基于目标中心点的人体关键点检测方法,显著降低模型的参数量和计算量,实现轻量化定位目标人体的关键点,完成人体动作空间特征提取;
3.1设计网络结构及损失函数;
假设输入图像I0∈RW×H×3,其中W表示输入图像的宽度,H表示输入图像的高度,由3个残差密集连接块组成的主干网络LRDN在提取I0人体检测区域的深层特征后,将其输入到3个反卷积组构成的特征聚合网络内进行上采样操作;其中,每个反卷积组由一个步长为1的3×3标准卷积与一个步长为2的4×4反卷积组成;最后3个分支卷积网络分别用来预测人体关键点热点图
Figure FDA0003593713690000044
关键点相对于目标中心点的偏移误差
Figure FDA0003593713690000045
以及关键点离散化偏移误差
Figure FDA0003593713690000046
其中κ为人体关键点数,R0为缩放因子;
假设目标人体的关键点p(x,y)在对应预测热点图上的位置坐标为p′(x′,y′),则有:
Figure FDA0003593713690000051
其中,r表示由于卷积步长而产生的下采样因子;
Figure FDA0003593713690000052
表示向下取整函数;
网络训练关键点热点图的损失函数Lhm基于用于密集物体检测的焦点损失函数FocalLoss设计,即有:
Figure FDA0003593713690000053
其中,
Figure FDA0003593713690000054
表示真实人体关键点的高斯核,σ0为与对应目标尺寸相关的标准差;Ypre表示预测关键点的高斯核;N表示输入图像存在的关键点数量;α与β表示权重调节参数;
在处理人体关键点检测问题时,通常会先利用二维高斯函数在真实的关键点位置生成真实的热点图,然后将待检测的图像输入检测网络得到预测的热点图,同时训练预测热点图与真实热点图之间的损失值不断趋于0,从而实现人体关键点位置的准确估计;
为了保证每个人体的每个关键点能够准确地被分配给其所隶属的人体目标对象,设计的人体姿态估计器引入了每个关键点到人体目标中心点的偏移以作为关键点聚类的依据;同时,关键点相对于人体目标中心点的偏移误差采用L1损失函数进行训练;假设关键点距离目标中心点的真实偏差为(jx,jy),网络预测的偏差为(j′x,j′y),则对于关键点距离人体目标中心点的损失函数有:
LJ=(j′x-jx)+(j′y-jy) (13)
在执行步长为2的卷积时会对人体各关键点的具体位置坐标产生离散化偏移误差,所以这里设计的人体姿态估计器还对模型执行卷积步长时产生的偏移量进行了预测,故人体关键点的最终预测坐标值是基于热点图的检测坐标与预测的偏移量之和,则对于关键点p(x,y)的离散化偏移误差Mp有:
Figure FDA0003593713690000055
设人体关键点离散化偏移的损失函数为Loff,有:
Figure FDA0003593713690000056
综上,利用式(12)、式(13)与式(15)可得人体姿态估计器的损失函数Lhpe为:
Lhpe=Lhm+LJ+Loff (16)
3.2进行推理检测;
在检测阶段,假设模型检测到的人体目标中心点为(x0,y0),则根据关键点相对于人体目标中心点的偏移
Figure FDA0003593713690000061
可回归得到关键点的位置lτ为:
Figure FDA0003593713690000062
根据人体关键点热点图
Figure FDA0003593713690000063
与关键点离散化偏移误差
Figure FDA0003593713690000064
之和能够得到热点图中所有点在输入图像分辨率下的预测位置,接着设阈值为0.1,将热点图上响应值小于阈值的点直接去除,由此可提取到热点图中所有的第τ个人体关键点部位的预测位置Lτ为:
Figure FDA0003593713690000065
其中,nτ表示图中有n个第τ个人体关键点部位;lτ,i表示图中第i个第τ个人体关键点部位的预测位置;
然后将回归位置lτ与Lτ中的所有关键点进行关联,满足式(19)的关键点即为对应人体目标的第τ个关键点;
Figure FDA0003593713690000066
3.3设计人体关键点数据格式;
通过人体动作来进行姿态跟踪,在此过程中人体所做的动作隶属于肢体活动,人体面部关键点的信息在其中发挥的益处甚微,所以基于传统人体姿态识别模型Openpose应用的18个人体关键点结构设计了人体姿态估计器适用的人体关键点结构,同时,该结构对应的人体关键点名称及位置如表1所示;
表1人体关键点名称及位置对应关系表
Figure FDA0003593713690000067
Figure FDA0003593713690000071
通常情况下,人体关键点坐标数据中常常存在奇异数据,这会增加模型的训练时间,还容易导致模型无法收敛;为了规避这个问题,同时增强模型的泛化能力,这里对人体姿态估计器提取到的人体关键点坐标数据进行归一化处理后再用于后续模型的训练,具体做法为:
Figure FDA0003593713690000072
其中,x与y分别表示人体关键点在原始视频帧图像中的横坐标和纵坐标;W与H分别表示原始视频帧图像的宽度和高度;(x′,y′)表示人体关键点(x,y)归一化后的坐标;
步骤四,将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联;
普通的多目标跟踪只需对代表目标的某个关键点进行跟踪即可,但对人体姿态的跟踪则需要对组合成人体姿态的多个肢体关键点进行连续跟踪,所以这里将轻量化多目标跟踪器和轻量化人体姿态估计器进行并联,一方面多目标跟踪器对前后帧视频图像进行跟踪,获取跟踪目标人体的边界框位置信息,另一个方面多目标跟踪器与人体姿态估计器组合成人体姿态跟踪器在跟踪人体的同时采用人体姿态估计器检测人体各个关键点的位置,实现对人体姿态的跟踪;
步骤五,对模型进行训练及测试;
将视频数据按照4:1的方式随机划分成训练集和测试集,传入模型进行训练;得到人体姿态跟踪器在训练过程中的准确率与损失函数的收敛情况;进一步利用测试集对模型的效果进行评估,得到模型在测试集上的表现,最后得到鲁棒性强的模型。
2.如权利要求1所述的一种轻量型的多人姿态跟踪方法,其特征在于:步骤(T2)中下采样倍率s=8。
3.如权利要求1所述的一种轻量型的多人姿态跟踪方法,其特征在于:步骤①中,DCN核的宽度和高度K取值为:K=3。
4.如权利要求1所述的一种轻量型的多人姿态跟踪方法,其特征在于:步骤3.1中,权重调节参数α与β分别设置为α=2.0,β=4.0。
5.如权利要求1所述的一种轻量型的多人姿态跟踪方法,其特征在于:步骤五中,将视频数据传入模型进行训练时,其中,batch_size设置为32,训练epoch设置为2000,初始学习率为0.02,优化器为Adam。
CN202210386007.6A 2022-04-13 2022-04-13 一种轻量型的多人姿态跟踪方法 Pending CN114724185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210386007.6A CN114724185A (zh) 2022-04-13 2022-04-13 一种轻量型的多人姿态跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210386007.6A CN114724185A (zh) 2022-04-13 2022-04-13 一种轻量型的多人姿态跟踪方法

Publications (1)

Publication Number Publication Date
CN114724185A true CN114724185A (zh) 2022-07-08

Family

ID=82244360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210386007.6A Pending CN114724185A (zh) 2022-04-13 2022-04-13 一种轻量型的多人姿态跟踪方法

Country Status (1)

Country Link
CN (1) CN114724185A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272541A (zh) * 2022-09-26 2022-11-01 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN115294652A (zh) * 2022-08-05 2022-11-04 河南农业大学 一种基于深度学习的行为相似性计算方法和系统
CN115331153A (zh) * 2022-10-12 2022-11-11 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294652A (zh) * 2022-08-05 2022-11-04 河南农业大学 一种基于深度学习的行为相似性计算方法和系统
CN115272541A (zh) * 2022-09-26 2022-11-01 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN115272541B (zh) * 2022-09-26 2023-01-03 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN115331153A (zh) * 2022-10-12 2022-11-11 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法
CN115331153B (zh) * 2022-10-12 2022-12-23 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法

Similar Documents

Publication Publication Date Title
Liu et al. Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition
CN109948526B (zh) 图像处理方法及装置、检测设备及存储介质
CN114724185A (zh) 一种轻量型的多人姿态跟踪方法
CN107886069A (zh) 一种多目标人体2d姿态实时检测系统及检测方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN109934183B (zh) 图像处理方法及装置、检测设备及存储介质
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
CN114036969B (zh) 一种多视角情况下的3d人体动作识别算法
CN113361542A (zh) 一种基于深度学习的局部特征提取方法
CN112989889B (zh) 一种基于姿态指导的步态识别方法
Park et al. Self-supervised rgb-nir fusion video vision transformer framework for rppg estimation
Kugarajeevan et al. Transformers in single object tracking: An experimental survey
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
Dhillon et al. A recent survey for human activity recoginition based on deep learning approach
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN113763417A (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN115239765B (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN116129051A (zh) 一种基于图和注意力交织的三维人体姿态估计方法及系统
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
Zhang An intelligent and fast dance action recognition model using two-dimensional convolution network method
CN115375732A (zh) 一种基于模块迁移的无监督目标跟踪方法和系统
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination