CN115690732A

CN115690732A - 一种基于细粒度特征提取的多目标行人跟踪方法

Info

Publication number: CN115690732A
Application number: CN202211258653.0A
Authority: CN
Inventors: 徐博; 周尚波
Original assignee: Individual
Current assignee: Chongqing University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-02-03

Abstract

本发明公开了一种基于自适应权重特征融合的多目标行人跟踪方法，使用一种改进ResNet的方法检测初始帧中的多个目标，并根据建立行人识别检验模型先进行确定行人跟踪目标后，根据人体结构特点，建立行人动作预测模型，行人动作预测模型采用上下区分分别进行建立模型，同时结合于人体表情识别，从而提高行人动作识别的准确性，通过各子块识别的匹配权重系数，最终通过人体子块区域特征向量集的相似度计算实现行人行为预测，本系统方法可应用于交通安全以及公共场所安全等领域。

Description

一种基于细粒度特征提取的多目标行人跟踪方法

技术领域

本发明涉及行人跟踪识别领域，具体涉及一种基于细粒度特征提取的多目标行人跟踪方法。

背景技术

随着社会的发展，人们的生活也得到了极大的改善，人们开始追求更轻松更简单的生活方式。自动驾驶是这两年是比较热门的研究领域，一个好的自动驾驶算法必然离不开优秀的目标跟踪算法，尤其是多目标跟踪。在复杂路况上，任何一个小的错误都有可能导致重大交通事故，所以为了更好的跟踪周围的行人、车辆，并对其行为状态进行预测，我们必须提升多目标跟踪算法的性能。

最初的多目标跟踪算法是基于跟踪预测与关联-Tracking的算法实现物体追踪，比如SORT。先通过深度学习的各种检测网络来实现物体检测，然后使用卡尔曼滤波器对当前帧的检测BBox进行预测，得到下一帧的预测BBox，然后在下一帧用预测的BBox与检测的BBox进行IOU匹配，大于阈值的就定义为同一个目标。一般使用的检测网络都是CNN、RCNN等在大目标上检测性能比较优越的算法。这种算法的特点是轻量级，实现简单，是多目标跟踪算法的基础框架。但是，这种算法有一个无法解决的巨大的缺陷，那就是视频途中新进入的目标无法处理，并且没有解决遮挡、模糊等问题带来的IDSwitvh。所以，为了解决IDSwitch和新进入目标等问题，引入了DeepSort算法，DeepSort算法引入了级联匹配算法以及ReID(跨摄像头发现跟踪同一个目标)来解决IDSwitch问题，通过多个摄像头提取的行人特征来跟踪同一个目标，减少了IDSwitch。但是，由于外观特征提取和目标检测均需要特征提取，Two-stage算法模型时间成本较大，One-stage模型开始变为主流。顾名思义，One-stage模型就是用一个通用的特征提取模型来解决检测阶段和特征匹配阶段的所需要的特征矩阵。随着Transformer在NLP领域的逐渐成熟，开始把自注意力机制应用于多目标跟踪领域。把骨干网络输出的feature map作为Transformer编码器的输入，并且连接解码器一起作为特征提取结构。然后把相邻两帧的特征进行匹配，实现跟踪。Transformer的自注意力机制毫无疑问可以减少一定的IDSwitch，但是由于Transformer编码-解码器的特性，整个网络的参数量大大增加，训练时间往往需要好几天，并且需要极高配置的服务器。虽然使用feature map会减少参数，但是也损失了一部分浅层特征，导致特征提取的细粒度不够，反而IDSwitch问题并没有得到太大的改善。

所以，本发明提出了一种通过自适应权重融合方法提取图像细粒度特征的改进ResNet模型，应用于检测阶段和外观特征提取阶段，实现了一种轻量级的多目标行人跟踪方法，一定程度上减少了IDSwitch次数。并通过编码-解码器结构实现深层的时空特征提取，处理历史状态和当前状态，生成未来行为预测的多目标行人跟踪方法。

发明内容

本发明的目的在于提供一种结构设计合理的基于自适应权重融合的多目标行人跟踪方法。

本发明解决上述问题所采用的技术方案是：一种基于自适应权重融合的多目标行人跟踪方法，其特征在于：包括如下步骤：

S1：采用多组摄像头在跟踪区域进行拍摄获取视频，或逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间轴，将多个所述视频对应的图像进行逐帧拼接，得到目标图像；

S2：建立行人识别检验模型，对获取的目标图像通过改进ResNet进行检测，识别行人目标特征，即为行人的目标图像；

S3：建立行人动作预测模型，将目标图像的动作帧按照时间轴应用于行人动作预测模型获得预测结果。

S4：基于预测结果应用于系统构建的行为管理模型，确定是否对行为进行预警或干涉。

进一步的：在S2中，具体的

(6)输入图像后，通过特征提取、加权、融合三个步骤进行自适应权重特征融合，使得网络自适应的学习不同特征的权重，保留不同特征对识别的贡献，进行更细粒度的目标检测；具体包括:

4)特征提取

为了避免较多的存储、计算开销和参数量，本文采用平均池化和最大池化过滤浅层特征。其公式如下所示；

H'₁＝(H₁-k_h)/s；W₁'＝(w₁-k_w)/s 公式2

其中，k_h和k_w是池化操作的核大小，池化步长为s，ave和max分别表示平均池化和最大池化操作，C为通道数，H为高，W为宽。输出结果X¹可以被解释成一个局部描述的集合，表示图像的局部特征。

5)加权

wX'₁＝Relu(Resize(Conv(Resize(poll_i(X))))) 公式6

其中，W为权重值。

6)融合

采用拼接融合方式对浅层特征wX₁’和高层语义特征X_n进行融合，其公式如下：

X＝f^cat(wX'₁,X_n) 公式7

函数f为融合函数。

(2)利用检测结果，初始化卡尔曼滤波器，并预测下一帧图像中目标的位置坐标；

(3)检测当前帧目标，使用基于改进ResNet的行人重识别基线模型提取外观特征信息，得到外观关联代价，再结合运动关联代价构建轨迹关联概率，将最终轨迹关联概率融入匈牙利关联策略中，完成轨迹关联匹配；

(4)(若有未匹配的检测结果，则初始化新的卡尔曼滤波器；若有未匹配的预测结果，则判定该目标可能被遮挡或消失，同时记录历史遮挡帧数，若遮挡帧数累计大于70帧，则认为目标消失，移除该轨迹；

(5)更新卡尔曼滤波器的相关参数，并返回步骤(3),经过多次迭代直至所有图像被处理完毕。

在预设的汉明距离内，使用模式匹配器，从而得到粗匹配结果；然后在粗匹配结果中，将图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于提纯后的图像匹配点对，将图像进行融合，得到目标图像。

进一步的：在S1中，所述多个基于视觉的采集设备包括至少两个头顶摄像头，用于提供所述跟踪区域的高角度视图，至少两个位于所述跟踪区域两侧的基于视觉的采集设备，用于捕获中角视图，至少两个底部俯瞰采集的基于视觉的采集设备，用于捕获低角度视图。

进一步的：在S3中，行人动作预测模型基于视觉处理单元根据人体运动轴模型来识别相应的跟踪区域行人的身体轴，通过身体轴的动作配合关系预测行人的行为动作。

进一步的：在s3中，在得到行人的目标图像后，分别针对行人的目标图像的行人空间和时间图，对不同的图；

利用相应的节点特征和图结构进行图卷积运算和激活函数的处理；

建立了多尺度时空图神经网络，模型基于编码器-解码器结构，编码器中放置了多层级联的MST-GCU以实现深层的时空特征提取；

解码器采用一种graph-based attention GRU对历史状态和当前输入进行处理，逐帧地生成未来姿态，具体包括：

(1)预测值与ground truth之间的L1-norm-based regression loss：

(2)预测值与ground truth的相邻帧gram矩阵之间的F-norm-based loss，这一项的设置是为了保证帧间的运动性一致，增强序列的variance：

其中对于第i个节点，gram matrix被计算为:

(3)多尺度空间图建立时的分配矩阵的熵值约束，通过降低熵值来确保节点分配是纯粹和清晰:

(4)将上述三项通过加权求和的方式得到整体的Loss:

进一步的：视觉处理单元还基于人类面部模型来识别相应跟踪区域行人的表情指证，通过表情指证的五官的配合关系建模预测行人的行为动作。

进一步的：在所述基于人体运动轴模型来识别相应的跟踪区域行人的身体轴以及基于人类面部模型来识别相应跟踪区域行人的表情指证的变化获取的行为动作结果数据库，建立基于人类身体轴的行为动作预测模型。

进一步的：所述的人类身体轴的行为动作预测模型中将将人体进行上下划分，计算两个身体部位之间节点级别的关联性，并进行特征传播以增强协调性，最后与原身体特征进行对齐和相加。

进一步的：所述的行为管理模型为数据库中建立执行逻辑，通过获取的预测结果与执行逻辑进行匹配，执行逻辑启动后至执行终端进行执行。

本发明与现有技术相比，具有以下优点和效果：本方法通过提出一种自适应特征权重融合的ResNet网络提升检测精度和完善外观特征矩阵来减少IDSwitch次数。然后建立行人识别检验模型先进行确定行人跟踪目标后，根据人体结构特点，建立行人动作预测模型，行人动作预测模型采用上下区分分别进行建立模型，同时结合于人体表情识别，从而提高行人动作识别的准确性，通过各子块识别的匹配权重系数，最终通过人体子块区域特征向量集的相似度计算实现行人行为预测，本系统方法可应用于交通安全以及公共场所安全等领域。

附图说明

图1是本发明实施例的流程示意图。

图2是本发明自适应特征融合的网络结构图。

图3是本发明s2的流程示意图。

图4是本发明s3的流程示意图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

参见图1，本实施例一种基于细粒度特征提取的多目标行人跟踪方法，具体的采用多组摄像头在跟踪区域进行拍摄获取视频，或逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间轴，将多个所述视频对应的图像进行逐帧拼接，得到目标图像；通过建立行人识别检验模型，对获取的目标图像进行检测，识别行人目标特征，即为行人的目标图像；通过建立行人动作预测模型，将目标图像的动作帧按照时间轴应用于行人动作预测模型获得预测结果；基于预测结果应用于系统构建的行为管理模型，确定是否对行为进行预警或干涉。其中，对于多个摄像头采集的视频，逐帧提取相同时刻的图像，使用ORB特征提取算法提取图像特征点，再统计图像中的图像特征点的汉明距离，基于汉明距离将各个图像进行粗匹配，在预设的汉明距离内，使用模式匹配器，从而得到粗匹配结果；然后在粗匹配结果中，将图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于提纯后的图像匹配点对，将图像进行融合，得到目标图像。

本实施例中所述多个基于视觉的采集设备包括至少两个头顶摄像头，用于提供所述跟踪区域的高角度视图，至少两个位于所述跟踪区域两侧的基于视觉的采集设备，用于捕获中角视图，至少两个底部俯瞰采集的基于视觉的采集设备，用于捕获低角度视图。其中，行人动作预测模型基于视觉处理单元根据人体运动轴模型来识别相应的跟踪区域行人的身体轴，通过身体轴的动作配合关系预测行人的行为动作，由于人体不同关节点并非独立运动，有复杂的时空关系，包括物理结构性约束和动作状态性交互；而这些复杂的关系尚未被前人工作充分地探讨，通过“共生图神经网络”，从多个角度建立混合的人体在运动时的关联关系。其中，视觉处理单元还基于人类面部模型来识别相应跟踪区域行人的表情指证，通过表情指证的五官的配合关系建模预测行人的行为动作。其中，在所述基于人体运动轴模型来识别相应的跟踪区域行人的身体轴以及基于人类面部模型来识别相应跟踪区域行人的表情指证的变化获取的行为动作结果数据库，建立基于人类身体轴的行为动作预测模型，所述的行为管理模型为数据库中建立执行逻辑，通过获取的预测结果与执行逻辑进行匹配，执行逻辑启动后至执行终端进行执行。

本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于自适应权重特征融合的多目标行人跟踪方法，其特征在于：包括如下步骤：

S2：建立行人识别检验模型，对获取的目标图像通过改进ResNet进行检测，提取行人目标特征，即为行人的目标图像；

2.根据权利要求1所述的基于自适应权重特征融合的多目标行人跟踪方法，其特征在于：在S2中，具体的

(1)输入图像后，通过特征提取、加权、融合三个步骤进行自适应权重特征融合，使得网络自适应的学习不同特征的权重，保留不同特征对识别的贡献，进行更细粒度的目标检测；具体包括:

1)特征提取

H'₁＝(H₁-k_h)/s；W'₁＝(w₁-k_w)/s 公式2

其中，k_h和k_w是池化操作的核大小，池化步长为s，a和m分别表示平均池化和最大池化操作，C为通道数，H为高，W为宽。输出结果X¹可以被解释成一个局部描述的集合，表示图像的局部特征。

2)加权

wX'₁＝Relu(Re size(Conv(Re size(poll_i(X))))) 公式6

其中，W为权重值。

3)融合

X＝f^cat(wX'₁,X_n) 公式7

函数f为融合函数。

3.根据权利要求1所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：在S1中，所述多个基于视觉的采集设备包括至少两个头顶摄像头，用于提供所述跟踪区域的高角度视图，至少两个位于所述跟踪区域两侧的基于视觉的采集设备，用于捕获中角视图，至少两个底部俯瞰采集的基于视觉的采集设备，用于捕获低角度视图。

4.所述权利要求1所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：在S3中，行人动作预测模型基于视觉处理单元根据人体运动轴模型来识别相应的跟踪区域行人的身体轴，通过身体轴的动作配合关系预测行人的行为动作。

5.所述权利要求1所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：在s3中，在得到行人的目标图像后，分别针对行人的目标图像的行人空间和时间图，对不同的图；

建立了多尺度时空图神经网络，模型基于编码器-解码器结构，编码器中放置了多层级联的MST-GCU以实现深层的时空特征提取，解码器采用一种graph-based attention GRU对历史状态和当前输入进行处理，逐帧地生成未来姿态，具体包括：

(1)预测值与ground truth之间的L1-norm-based regressionloss：

其中对于第i个节点，gram matrix被计算为:

(4)将上述三项通过加权求和的方式得到整体的Loss:

6.所述权利要求1所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：视觉处理单元还基于人类面部模型来识别相应跟踪区域行人的表情指证，通过表情指证的五官的配合关系建模预测行人的行为动作。

7.所述权利要求5所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：在所述基于人体运动轴模型来识别相应的跟踪区域行人的身体轴以及基于人类面部模型来识别相应跟踪区域行人的表情指证的变化获取的行为动作结果数据库，建立基于人类身体轴的行为动作预测模型。

8.所述权利要求5所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：所述的人类身体轴的行为动作预测模型中将将人体进行上下划分，计算两个身体部位之间节点级别的关联性，并进行特征传播以增强协调性，最后与原身体特征进行对齐和相加，获得最佳的预测值。

9.所述权利要求5所述的基于机器行为识别的多目标行人跟踪方法，其特征在于：所述的行为管理模型为数据库中建立执行逻辑，通过获取的预测结果与执行逻辑进行匹配，执行逻辑启动后至执行终端进行执行。