CN116311353A

CN116311353A - 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质

Info

Publication number: CN116311353A
Application number: CN202310087699.9A
Authority: CN
Inventors: 刘环宇; 温佳铮; 李君宝; 杨忠琳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-06-23

Abstract

基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质，属于计算机视觉跟踪技术领域，解决现有未有针对密集场景下的行人进行跟踪方法问题。本发明的方法包括：首先，设计了一种新的目标中心点建模方法，利于将目标中心点位置定位更准确；其次，提出了一种轻量化的重识别特征提取网络，并利用基于本量矩阵的相似度比较方法获取目标帧间位移预测；然后，设计了一种基于混合注意力机制的特征增强网络，将时间维度的帧间信息和空间维度的静态信息进行融合，增强了检测任务与跟踪任务之间的联系；最后，通过二次数据关联的方法将检测结果与目标位移进行整合，获得最终轨迹。本发明适用于密集目标场景下的多行人跟踪。

Description

基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质

技术领域

本申请涉及计算机视觉跟踪技术领域，尤其涉及密集行人多目标跟踪。

背景技术

行人多目标跟踪研究领域目前分为两种范式：其一，目标检测与跟踪分离的范式；其二，联合目标检测与跟踪的范式。近几年，基于检测的跟踪方法一直是多目标跟踪领域的主流方法。基于检测的跟踪方法主张：首先利用现有的检测模型生成每一帧下的检测结果；之后使用额外的目标重识别模型提取各检测结果的外观特征或式采用运动模型来对目标的帧间运动状态进行直接的预测；最后利用相关匹配算法完成数据关联步骤，获取完整的跟踪轨迹。联合检测与跟踪的方法由于其结构上的先进性在该领域迅速兴起，其对检测与跟踪模型关系的再度审视，对于联合优化二者有着极高的实用价值。其通过将现有的检测模型的部分转化或是插入跟踪模型的方法，将原本完全分离的检测模型和跟踪模型整合到同一个框架下。

尽管基于检测的跟踪方法一直是多目标跟踪领域的主流方法，但是其存在两个主要的弊端：1)检测与跟踪两部分的分离，不利于模型的联合优化，常常会出现两部分模型优化方向不一致的情况，最终导致整体模型在全局无法获得最优结果；2)为了给数据关联步骤提供优化依据，这类方法所采用的重识别模型往往是独立的，需要高昂的计算成本，这极大地限制了多目标跟踪算法的实时性。相比于基于检测的多目标跟踪范式，联合检测与跟踪范式的多目标跟踪算法凭借其先进的结构形式以及跟踪速度上的优势，在理论研究与实际应用两个层面都有较好的前景。

在多目标跟踪任务下，行人目标通常是视频场景中被关注的中心，这就使得检测并跟踪他们成为了一项计算机视觉领域需要研究的基本问题。此外，与其他视觉目标相比，行人作为典型的非刚体目标是研究多目标跟踪问题的理想样本。但是，这项任务的复杂性随着要跟踪的行人的增加而增加，并且仍然是一个开放的研究领域。随着大规模密集行人的情况越来越普遍，由于目标密度的骤增，模型不仅在目标检测方面面临挑战，也在跟踪轨迹生成过程中身份转换情况的发生越发频繁。绝大多数现有的方法并不专门关注密集场景下的行人跟踪问题，因此，在将这些方法迁移至这样场景下时，往往不会获得很好的泛化性。

发明内容

本发明目的是为了解决现有未有针对密集场景下的行人进行跟踪方法的问题，提供了基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质。

本发明是通过以下技术方案实现的，本发明一方面，提供一种基于特征融合的密集行人多目标跟踪方法，所述方法包括：

步骤1、对输入的相邻视频帧进行基础特征提取处理，获取各帧的基础特征；

步骤2、基于步骤1获取的相邻帧基础特征，利用重识别特征提取网络进行重识别特征提取，获取相邻帧重识别特征；根据所述相邻帧重识别特征，利用本量矩阵模块，获取同一目标的帧间位移预测矩阵；

步骤3、根据所述相邻帧基础特征，得到当前帧的目标检测信息，具体包括：

步骤3.1、将步骤1获取的相邻帧基础特征对应位置逐元素相减，得到帧间差异特征；

步骤3.2、将帧间差异特征与步骤2获取的位移预测矩阵按照维度进行整合，作为可变形卷积偏移量提取单元的输入，从而获取可变形卷积网络所需要的偏移量预测；

步骤3.3、将相邻帧中靠前的帧特征用预测出的热图进行加权，作为可变形卷积网络DCN的输入，卷积核的变形位移由上文的偏移量预测确定，由此获得不同于基础特征的之前帧新特征；

步骤3.4、将之前帧新特征与当前帧基础特征进行加权融合，获得当前帧新特征，利用所述当前帧新特征进行分类与回归，得到当前帧的目标检测信息；

步骤4、根据所述当前帧的目标检测信息，形成最终轨迹，具体包括：

步骤4.1、通过步骤3获得的相邻帧特征增强后的结果经过分类以及回归分支，得到目标的类别和位置信息；

步骤4.2、根据所述目标的类别和位置信息以及步骤2获得的相邻帧重识别特征和帧间位移预测，将帧间相同目标进行身份关联；

步骤4.3、通过线性分配算法形成最终轨迹。

进一步地，步骤1采用DLA-34特征提取网络结构对输入的相邻视频帧进行基础特征提取处理，其目标中心点的获取方法包括：

采用一个中心点约束，目标中心关键点的情况下有效半径r_center如下公式所示：

其中，W为输入图像宽，H为输入图像高，IoU_threshold为交并比阈值。

进一步地，步骤2中，所述重识别特征提取网络包括3种类型的网络模块，分别是卷积层conv、批归一化层BN和非线性激活层SiLU；

除了第一次层卷积层和最后一层卷积层使用1×1卷积核之外，其余卷积层均使用3×3卷积核。

进一步地，所述根据所述相邻帧重识别特征，利用本量矩阵模块，获取同一目标的帧间位移预测，具体包括：

将提取的多帧重识别内嵌模型中的当前帧部分E^t与之前帧部分E^t-τ进行相关性运算，获取本量矩阵；

在获取了帧间相似性度量的本量矩阵后，预测出目标在帧间的运动方向和运动位移；

将水平与垂直位移模板M_i,j和V_i,j分别和水平差异概率表示

与垂直差异概率表示/>

相乘，即可获得当前帧相对于之前帧的位移变化量。

进一步地，所述可变形卷积偏移量提取单元为基于混合注意力机制的卷积神经网络，具体包括：卷积层conv、批归一化层BN、非线性激活层ReLU和SiLU、最大池化层、平均池化层、全连接层FC、基础残差块、空间注意力机制网络和通道注意力机制网络；

所述基础残差块用于进行进一步的特征提取。

进一步地，所述将相邻帧中靠前的帧特征用预测出的热图进行加权，具体包括：

对于之前帧的特征图，在可变形卷积输入组成中并非直接进行操作，而是将其基础特征图与其热图各元素一一相乘，其公式如下：

其中，F_p ^t-τ表示第t-τ帧的由骨干网络层提取的基础特征图，

表示第t-τ帧在经过检测模型预测而获得的热图结果，只针对行人这一种分类，

表示将/>

与/>

进行逐通道且逐像素叠加的结果，⊙表示矩阵的Hadamard乘积，p＝1,2,...,64表示各个通道的索引值。

进一步地，所述将之前帧新特征与当前帧基础特征进行加权融合，获得当前帧新特征，具体包括：

通过自适应权重矩阵将之前帧的整合特征与当前帧的基础特征进行相加，其公式如下：

其中，

表示当前帧的自适应矩阵，w^t-τ表示之前帧的自适应矩阵，其满足关系/>

T表示所使用的之前帧的数量，⊙表示矩阵的Hadamard乘积，自适应权重矩阵由两组卷积层和softmax函数获得。

进一步地，步骤4.2，具体包括：

步骤4.2.1、初始化多种轨迹队列，分为三类：已跟踪的轨迹队列T_tracked，临近帧未匹配的轨迹队列T_lost，已结束的轨迹队列T_removed；通过两个阈值thresh_low和thresh_high将当前帧检测结果分为两类：高置信度检测结果和低置信度检测结果；

步骤4.2.2、进行第一次数据关联，具体包括：对该代价矩阵C_IoU使用Jonker-Volgenant线性分配算法，获得匹配的索引对集合S_m、未匹配轨迹集合S_um-track、未匹配检测结果集合S_um-det；对于可以匹配的索引对集合S_m，其中包含一个已跟踪的轨迹元素和一个当前帧检测结果元素；如果匹配的轨迹属于已跟踪的轨迹队列T_tracked，则直接将当前帧检测结果添加到该轨迹中，成为接续的已跟踪的轨迹；否则，该检测结果匹配的将是临近帧未匹配的轨迹队列T_lost中的轨迹，则将该未匹配轨迹重新激活；

步骤4.2.3、进行第二次数据关联，具体包括：对于低置信度检测结果，采用与第一次关联中完全一样的处理办法，获得已跟踪的轨迹以及重新激活的轨迹；

将第二次数据关联后仍未能匹配的轨迹，作为临近帧未匹配的轨迹进行标记，归纳其进入对应队列T_lost；对于第一次数据关联中未匹配的检测结果

将其与未激活轨迹进行位置相似度计算，并采用Jonker-Volgenant线性分配算法，获得匹配对索引，并结束未匹配的未激活轨迹；对于仍存在于高置信度检测结果中，但未进行匹配的检测结果，将其作为新轨迹的起点进行生成；更新轨迹状态，检查临近帧未匹配的轨迹队列T_lost中，是否有轨迹超出关联长度阈值，将结束这些轨迹。

第二方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于特征融合的密集行人多目标跟踪方法的步骤。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行如上文所述的一种基于特征融合的密集行人多目标跟踪方法。

本发明的有益效果：

在本发明中，提出了一种基于联合检测与跟踪范式的密集行人检测和跟踪的算法，该算法使用重新识别特征构建成本矩阵来预测对象的帧间位移。并且采用混合注意力机制实现帧间特征融合，利用位移信息进行检测，增强了检测任务与跟踪任务之间的联系。对于常规目标密度场景向密集目标场景的迁移具有较大的提升，可视化结果可见于图7。

本发明，首先，设计了一种新的目标中心点建模方法，利于将目标中心点位置定位更准确；

其次，提出了一种轻量化的重识别特征提取网络，并利用基于本量矩阵的相似度比较方法获取目标帧间位移预测；

然后，设计了一种基于混合注意力机制的特征增强网络，将时间维度的帧间信息和空间维度的静态信息进行融合，增强了检测任务与跟踪任务之间的联系；

最后，通过二次数据关联的方法将检测结果与目标位移进行整合，获得最终轨迹。

本发明适用于密集目标场景下的多行人跟踪。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法网络流程示意图；

图2为有效半径4种不同的约束情况；

图3为本发明实施例中步骤二相应的具体网络结构示意图图；

图4为本发明的一种轻量化的重识别特征提取模块的结果示意图；

图5为本发明实施例中步骤三流程示意图；

图6为本发明的可变形卷积偏移量提取单元网络结构图；

图7为本发明的可视化结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施方式一、一种基于特征融合的密集行人多目标跟踪方法，所述方法包括：

步骤3.3、将相邻帧中靠前的帧特征(即之前帧特征)用预测出的热图进行加权，作为可变形卷积网络DCN的输入，卷积核的变形位移由上文的偏移量预测确定，由此获得不同于基础特征的之前帧新特征；

需要说明的是，基础特征获取之后的分类回归部分会得到预测的热图。

步骤4.3、通过线性分配算法形成最终轨迹。

本实施方式中，首先，对目标中心点位置进行准确定位；

实施方式二，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对步骤1，做了进一步限定，具体包括：

步骤1采用DLA-34特征提取网络结构对输入的相邻视频帧进行基础特征提取处理，其目标中心点的获取方法包括：

本实施方式中，基础特征提取用于目标中心点的定位与分类，因此该部分并不仅仅依赖于网络结构设计，也需要对目标中心点的表示进行建模，本实施方式在该部分所提出的方法即是一种更加新颖的目标中心点建模方法，利于将目标中心点位置定位更准确。

实施方式三，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对步骤2中的所述重识别特征提取网络，做了进一步限定，具体包括：

步骤2中，所述重识别特征提取网络包括3种类型的网络模块，分别是卷积层conv、批归一化层BN和非线性激活层SiLU；

需要说明的是，此处模块级联结构遵循卷积层-批归一化层-非线性激活层顺序叠加，此循环模块建议控制在4组以内。

本实施方式设计了一种轻量化的重识别特征提取模块接续在骨干网络层之后，将原本的类间外观特征转化为高维的类内分辨特征。

实施方式四，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对根据所述相邻帧重识别特征，利用本量矩阵模块，获取同一目标的帧间位移预测，做了进一步限定，具体包括：

在获取了帧间相似性度量的本量矩阵后，其最终目的是预测出目标在帧间的运动方向和运动位移；

将水平与垂直位移模板M_i,j和V_i,j分别和水平差异概率表示

与垂直差异概率表示/>

相乘，即可获得当前帧相对于之前帧的位移变化量。

本实施方式中，对于本量矩阵的计算可以采取多种方法，本实施方式分别采取向量内积距离、特征通道归一化的向量余弦距离和向量欧式距离(向量L2范数距离)来进行本量矩阵计算，从而获得帧间内嵌特征相似度。

实施方式五，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对所述可变形卷积偏移量提取单元，做了进一步限定，具体包括：

所述可变形卷积偏移量提取单元为基于混合注意力机制的卷积神经网络，具体包括：卷积层conv、批归一化层BN、非线性激活层ReLU和SiLU、最大池化层、平均池化层、全连接层FC、基础残差块、空间注意力机制网络和通道注意力机制网络；

所述基础残差块用于进行进一步的特征提取。

本实施方式中，将帧间差异特征与步骤二输出的位移预测矩阵按照维度进行整合，作为可变形卷积偏移量提取单元的输入，从而获取可变形卷积网络所需要的偏移量预测。

实施方式六，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对将相邻帧中靠前的帧特征用预测出的热图进行加权，做了进一步限定，具体包括：

其中，

表示第t-τ帧的由骨干网络层提取的基础特征图，/>

表示将/>

与/>

本实施方式中，卷积核元素偏移量获得后，作为可变形卷积网络DCN的一部分输入，之前帧的基础特征图与预测热图的融合特征作为DCN的卷积对象输入。对于之前帧的特征图，在可变形卷积输入组成中并非直接进行操作，而是将其基础特征图与其热图各元素一一相乘。对第t-τ帧的操作方式等同于将之前帧对于目标的预测结果以二维高斯分布的形式，加权给基础特征图，可以理解为一种针对目标的注意力机制。

实施方式七，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对所述将之前帧新特征与当前帧基础特征进行加权融合，获得当前帧新特征，做了进一步限定，具体包括：

其中，

本实施方式属于特征增强部分，将时间维度的帧间信息和空间维度的静态信息进行融合，增强了检测任务与跟踪任务之间的联系。

实施方式八，本实施方式是对实施方式一所述的一种基于特征融合的密集行人多目标跟踪方法的进一步限定，本实施方式中，对步骤4.2，做了进一步限定，具体包括：

步骤4.2.2、进行第一次数据关联，具体包括：对该代价矩阵C_IoU使用Jonker-Volgenant线性分配算法，获得匹配的索引对集合S_m、未匹配轨迹集合S_um-track、未匹配检测结果集合S_um-det；对于可以匹配的索引对集合S_m，其中包含一个已跟踪的轨迹元素和一个当前帧检测结果元素。如果匹配的轨迹属于已跟踪的轨迹队列T_tracked，则直接将当前帧检测结果添加到该轨迹中，成为接续的已跟踪的轨迹。否则，该检测结果匹配的将是临近帧未匹配的轨迹队列T_lost中的轨迹，则将该未匹配轨迹重新激活；

本实施方式中，综合考虑目标的类别和位置信息以及步骤二获得的相邻帧重识别特征和输出的帧间位移预测，将帧间相同目标进行身份关联，即通过二次数据关联的方法将检测结果与目标位移进行整合，获得最终轨迹，以提高密集行人多目标跟踪精度。

实施例：

本实施例的算法网络流程如图1所示，其可以由4个主要部分构成，分别为基础特征提取部分，帧间位移预测部分，特征增强部分，数据关联部分。在该网络中，输入由多帧视频图像构成，输出为所关注目标的轨迹信息。此外，基础特征提取与特征增强部分存在部分输入输出交互，并且帧间位移预测部分也需要将部分内容输出到数据关联部分，故图1以虚线箭头表明这类含义。

步骤一：对输入的相邻视频帧进行基础特征提取处理，输出各帧的基础特征，其中相邻帧间隔不超过5帧。

本实施例采用和[1]中相同的特征提取网络结构DLA-34，但使用本实施例所设计的目标中心点获取方法。需要说明的是，基础特征提取用于目标中心点的定位与分类，因此该部分并不仅仅依赖于网络结构设计，也需要对目标中心点的表示进行建模，本实施例在该部分所提出的方法即是一种更加新颖的目标中心点建模方法。下面与[1]中方法对比，就该方法具体内容进行阐述。

可将目标中心点建模的方法总结为：将输入图像

输入图像宽为W，高为H，通道数为3表示RGB图像，映射为关键点的热图/>

其中R表示热图相对于原图尺寸的缩放比例，C表示目标所涉及的类别数量。在训练过程当中目标中心点在映射到热图上之后，是一种遵循高斯分布的概率表示。

因此，为了保证热图上目标中心点的坐标和标注集合中的目标中心点坐标差距不至于过大，需要在映射后加入一定的约束条件来限制热图上的目标中心点集合的散落位置。在二维空间内，对于目标集合间的位置关联性，通常采用交并比来进行度量。基于上述原因，对于这样的映射，模型往往需要连续的平滑特性，将距离目标中心点确切位置更近的部分赋予更高的权重系数，而将距离目标中心点越远的部分赋予较低的权重系数。所以，这里将真值信息采用二维高斯核函数，转化为一种概率表示，映射为真值热图Y∈[0,1]^{(W/R)×(H/R)×C}。函数式如式(1-1)所示：

其中，

是热图上目标中心点位置坐标，/>

是标注集合中目标中心点位置的真值坐标，σ_k是用于映射的高斯核函数的标准差。根据二维高斯分布的变量区间估计相关性质，取横坐标x的置信区间为(x-3σ_k,x+3σ_k)，纵坐标y的置信区间为(y-3σ_k,y+3σ_k)，即可保证其内部样本的置信水平达到99.7％。

基于此，本实施例定义3σ_k为二维高斯映射下，热图上的目标中心点分布的有效半径。基于此，便会产生一个小于交并比阈值的对于有效半径的约束，如式(1-2)：

其中，交并比由热图上目标中心点所确定的边界框与标注集合中的目标边界框来得出，S_inter表示二者交集部分的面积，S_union表示二者并集部分的面积。

本实施例提出一种不同于[1]中的热图关键点生成方法。[1]中分为3种情况建立此约束关系，分别如图2(a)、2(b)、2(c)所示。基于此获得有效半径，具体内容如式(1-3)：

对于上述三种情况，本实施例设计了一种生成方法来简化这三种情况为一种情况。在图2(d)中，本实施例将两个角点约束的情况简化为一个中心点约束的情况，基于此可得如下公式：

S₁＝(W-rsinθ)·(H-rcosθ)(1-4)

S₂＝W·H-S₁(1-5)

其中，在图2(d)中，S₁表示热图上目标中心点所确定的边界框与标注集合中的目标边界框相交部分的面积大小，S₂表示标注集合中的目标边界框面积去掉相交部分面积S1的差值，交并比阈值为IoU_threshold。当且仅当

时，式(1-6)可取得等号情况，故可得目标中心关键点的情况下有效半径r_center如式(1-7)所示：

在标注集合真值映射到热图平面的过程中，本实施例对于其加入了目标尺寸的隐含约束，将目标尺寸比例的先验提前加入到了训练过程中。

步骤二：基于步骤一输出的相邻帧基础特征，利用重识别特征提取网络进行重识别特征提取。将获取的相邻帧重识别特征(即重识别内嵌特征)作为本量矩阵模块的输入，用以输出同一目标的帧间位移预测。具体网络结构如图3所示。

在跟踪过程中，由于目标会由于被遮挡或外观剧变等情况被赋予新的身份标识，如果将其直接作为新轨迹的起点，会产生大量的轨迹碎片以及身份转换现象。采用重识别内嵌特征不仅有益于同类目标之间的区分，还为目标建立特征银行，在被遮挡目标再出现时可以提供轨迹接续的依据。同时，由于骨干网络所做的特征提取主要用于后续的类间区分，即将行人目标和背景区分开来，而重识别网络则主要进行目标的类内区分以分辨同类目标下的不同个体。本实施例提出的重识别特征提取方法不同于传统的获取局部特征进行分析比对的方法，其通过构建高维的内嵌模型来描述同类下不同个体的差异。

本实施例设计了一种轻量化的重识别特征提取模块接续在骨干网络层之后，将原本的类间外观特征转化为高维的类内分辨特征。该网络共包含3种类型的网络模块，分别是卷积层conv、批归一化层BN、非线性激活层SiLU。图4(a)为一种常规实现结构，图4(b)为本实施例实现结构。此处模块级联结构遵循卷积层-批归一化层-非线性激活层顺序叠加，此循环模块建议控制在4组以内。此外除了第一次层卷积层和最后一层卷积层使用1×1卷积核之外，其余卷积层均使用3×3卷积核。其映射可用如下公式表示：

E^t＝σ(F^t)(2-1)

其中，(W,H)表示输入图像经过仿射变换后的分辨率，F^t表示第t帧图像经过骨干网络层提取后得到的特征，E^t表示第t帧图像的重识别内嵌特征，σ(·)表示图3中的重识别内嵌模型提取网络所对应的映射。

之后，将提取的多帧重识别内嵌模型中的当前帧部分E^t与之前帧部分E^t-τ进行相关性运算。对于本量矩阵的计算可以采取多种方法，本实施例分别采取向量内积距离、特征通道归一化的向量余弦距离和向量欧式距离(向量L2范数距离)来进行本量矩阵计算，从而获得帧间内嵌特征相似度。具体数学表示如式(2-2)、(2-3)、(2-4)所示：

其中，C_i,j,k,l表示本量矩阵，

表示第t帧图像的内嵌多维矩阵，(i,j)分别表示该矩阵元素的横坐标索引与纵坐标索引，/>

表示第t-τ帧图像的内嵌多维矩阵，(k,l)分别表示该矩阵元素的横坐标索引与纵坐标索引，(·)^Τ表示矩阵转置运算。式(2-2)对应采用向量内积计算本量矩阵的方法；式(2-3)对应采用特征通道归一化的向量余弦距离计算本量矩阵的方法，其中Norm_L2(·)表示特征通道方向上的L2范数计算；式(2-4)对应采用向量欧式距离计算本量矩阵的方法，其中(·)²表示矩阵元素层面的平方运算，非矩阵自身的乘法运算。

在获取了帧间相似性度量的本量矩阵后，其最终目的是预测出目标在帧间的运动方向和运动位移。这部分内容可以分为三个步骤进行：1)将本量矩阵在高度方向和宽度方向进行最大池化，找出当前帧各个像素点相对于之前帧的水平差异最大值

和垂直差异最大值/>

其中/>

和/>

表示第t帧图像上坐标(i,j)处与第t-τ帧图像上所有像素位置的相似程度，例如：/>

表示出现在第t帧图像上坐标(i,j)处的目标与第t-τ帧图像上坐标(*,l)所在列所有像素位置的相似程度；2)对池化后的水平差异最大值矩阵C^W和垂直差异最大值矩阵C^H，使用softmax函数归一化，将原本的相关性数值映射为概率[0,1]表示；3)在获得当前帧各个点与之前多帧的相似性概率表示之后，还需要将这些概率值转化为实际的帧间位移信息。根据当前帧不同的像素位置相对于之前帧的位置关系，可以设计如下的水平与垂直位移模板，其计算方法如式(2-5)所示，此处以输入图像尺寸的1/8为例，当输入图像分辨率为512×512时，获得特征图大小为64×64：

其中，M_i,j和V_i,j分别表示水平方向和垂直方向位移模板。

最后将水平与垂直位移模板M_i,j和V_i,j分别和水平差异概率表示

与垂直差异概率表示/>

相乘，即可获得当前帧相对于之前帧的位移变化量。这些位移变化的概率表示可以在数据关联步骤中作为关联依据，以及作为特征融合的位置注意力信息。上述过程可以用式(2-6)表示：

其中，O_i,j表示第t帧图像坐标(i,j)处的目标相对于第t-τ帧图像上所有位置的水平方向和垂直方向的位移预测矩阵。

步骤三：将步骤一输出的相邻帧基础特征对应位置逐元素相减，得到帧间差异特征；将帧间差异特征与步骤二输出的位移预测矩阵按照维度进行整合，作为可变形卷积偏移量提取单元的输入，从而获取可变形卷积网络所需要的偏移量预测；将相邻帧中靠前的帧特征用预测出的热图进行加权，作为可变形卷积网络DCN的输入，卷积核的变形位移由上文的偏移量预测确定，由此获得不同于基础特征的之前帧新特征；将之前帧新特征与当前帧基础特征进行加权融合，获得当前帧新特征，利用该特征进行分类与回归得到当前帧的目标检测信息。该步骤具体流程如图5所示。

在3×3的卷积核中，包含的卷积元素共9个，因此在可变形卷积中需要确定8个元素水平偏移量和8个元素垂直偏移量。基于此，需要将整合的帧间差异特征与步骤二输出的位移预测矩阵作为输入，映射为16个偏移量输出。

本实施例设计了一种基于混合注意力机制的卷积神经网络来完成这一映射过程的训练学习，该网络结构具体内容如图6所示。该网络输入为整合后的拼接特征，输出为卷积核偏移量。该网络结构包含卷积层conv、批归一化层BN、非线性激活层ReLU和SiLU、最大池化层、平均池化层、全连接层FC等多层结构，并且使用基础残差块进行进一步的特征提取。图6中虚线框标识的部分，为该网络结构采用混合注意力机制的部分，其中红色虚线框表示空间注意力机制网络结构，蓝色虚线框表示通道注意力机制网络结构。

卷积核元素偏移量获得后，作为可变形卷积网络DCN的一部分输入，之前帧的基础特征图与预测热图的融合特征作为DCN的卷积对象输入。对于之前帧的特征图，在可变形卷积输入组成中并非直接进行操作，而是将其基础特征图与其热图各元素一一相乘。具体流程可以用式(3-1)表示：

其中，

表示第t-τ帧的由骨干网络层提取的基础特征图，/>

表示第t-τ帧在经过检测模型预测而获得的热图结果，在本实施例的问题下其只针对行人这一种分类，/>

表示将/>

与/>

进行逐通道且逐像素叠加的结果。式(3-1)中，⊙表示矩阵的Hadamard乘积，p＝1,2,...,64表示各个通道的索引值。

式(3-1)中对第t-τ帧的操作方式等同于将之前帧对于目标的预测结果以二维高斯分布的形式，加权给基础特征图，可以理解为一种针对目标的注意力机制。

特征增强部分则是通过自适应权重矩阵将之前帧的整合特征与当前帧的基础特征进行相加，具体形式可以用式(3-2)表示：

其中，

表示之前帧的整合特征，/>

表示当前帧的基础特征，/>

表示当前帧新特征，/>

表示当前帧的自适应权重矩阵，w^t-τ表示之前帧的自适应权重矩阵，其满足关系/>

T表示所使用的之前帧的数量，⊙表示矩阵的Hadamard乘积。其中，自适应权重矩阵由两组卷积层和softmax函数获得。

步骤四：通过步骤三获得的相邻帧特征增强后的结果经过分类以及回归分支得到目标的类别和位置信息；综合考虑目标的类别和位置信息以及步骤二获得的相邻帧重识别特征和输出的帧间位移预测，将帧间相同目标进行身份关联(即数据关联)；通过线性分配算法形成最终轨迹。

本实施例设计的具体数据关联方式如下：

首先，初始化多种轨迹队列，主要分为三类：已跟踪的轨迹队列T_tracked，临近帧未匹配的轨迹队列T_lost，已结束(移除)的轨迹队列T_removed；通过两个阈值thresh_low和thresh_high将当前帧检测结果分为两类：高置信度检测结果和低置信度检测结果，其中高置信度检测结果用于第一次数据关联，低置信度检测结果用于第二次数据关联；将临近帧未匹配的轨迹队列T_lost中所包含的身份标识与已跟踪的轨迹队列T_tracked中的进行比较，将不同的部分划归到已跟踪的轨迹队列T_tracked；对已跟踪的轨迹队列T_tracked中的检测结果det^t ^-τ，采用卡尔曼滤波的方法，生成滤波器预测的检测结果

计算卡尔曼滤波所预测的检测结果/>

与检测模型输出检测结果det^t间的交并比，构成以交并比作为代价的位置信息相似度矩阵C_IoU；

第一次数据关联：对该代价矩阵C_IoU使用Jonker-Volgenant线性分配算法，该算法是针对密集和稀疏线性分配问题的最短增强路径算法，可以获得匹配的索引对集合S_m、未匹配轨迹集合S_um-track、未匹配检测结果集合S_um-det。对于可以匹配的索引对集合S_m，其中包含一个已跟踪的轨迹元素和一个当前帧检测结果元素。如果匹配的轨迹属于已跟踪的轨迹队列T_tracked，则直接将当前帧检测结果添加到该轨迹中，成为接续的已跟踪的轨迹。否则，该检测结果匹配的将是临近帧未匹配的轨迹队列T_lost中的轨迹，则将该未匹配轨迹重新激活；

第二次数据关联：对于低置信度检测结果，采用与第一次关联中完全一样的处理办法，获得已跟踪的轨迹以及重新激活的轨迹。将第二次数据关联后仍未能匹配的轨迹，作为临近帧未匹配的轨迹进行标记，归纳其进入对应队列T_lost；对于第一次数据关联中未匹配的检测结果

对于常规目标密度的场景向密集目标场景的迁移具有较大的提升，可视化结果可见于图7。黄色圈出部分表示本发明算法比同类算法[1]的更优结果区域，红色圈出部分表示后者更优结果区域，可以发现在多种场景和不同视频序列下，本发明算法在密集行人场景下优于同类算法。

本发明算法可在绝大多数标准多目标跟踪数据集上进行实施部署，并且可直接接入视频流进行目标跟踪处理。

防止过拟合，导致网络检测效果失效，本发明可以使用丰富目标的数据集对网络进行预先训练，以获得更快速的最优值获取。

本实施例使用DLA-34网络的变式作为整体网络的骨干层，此外本发明算法也可使用其他骨干网络进行基础特征提取不妨碍后续步骤，并且在COCO数据集上进行预训练以初始化骨干网络模型。

本实施例使用Adam优化器训练网络，迭代70个epoch，以3.25e-5的学习率开始训练。学习率在第60个epoch时衰减至3.25e-6。

本实施例设置的batchsize大小为8。同时使用了一些标准的数据增强策略，包括翻转、尺度变化和色彩变换。输入图像大小被重塑为960*544，在回归分支位置的特征图分辨率为240*136。

本实施例在训练阶段消耗了大约12个小时，在两张RTX3090显卡上。

算法[1]：ZHOU X,KOLTUN V,

P.Tracking objects as points[C].European Conference on Computer Vision,2020:474-490。/>

Claims

1.一种基于特征融合的密集行人多目标跟踪方法，其特征在于，所述方法包括：

步骤4.3、通过线性分配算法形成最终轨迹。

2.根据权利要求1所述的一种基于特征融合的密集行人多目标跟踪方法，其特征在于，步骤1采用DLA-34特征提取网络结构对输入的相邻视频帧进行基础特征提取处理，其目标中心点的获取方法包括：

3.根据权利要求1所述的一种基于特征融合的密集行人多目标跟踪方法，其特征在于，步骤2中，所述重识别特征提取网络包括3种类型的网络模块，分别是卷积层conv、批归一化层BN和非线性激活层SiLU；

4.根据权利要求1所述的一种基于特征融合的密集行人多目标跟踪方法，其特征在于，所述根据所述相邻帧重识别特征，利用本量矩阵模块，获取同一目标的帧间位移预测，具体包括：

将水平与垂直位移模板M_i,j和V_i,j分别和水平差异概率表示

与垂直差异概率表示/>

相乘，即可获得当前帧相对于之前帧的位移变化量。

5.根据权利要求1所述的一种基于特征融合的密集行人多目标跟踪方法，其特征在于，所述可变形卷积偏移量提取单元为基于混合注意力机制的卷积神经网络，具体包括：卷积层conv、批归一化层BN、非线性激活层ReLU和SiLU、最大池化层、平均池化层、全连接层FC、基础残差块、空间注意力机制网络和通道注意力机制网络；

所述基础残差块用于进行进一步的特征提取。

6.根据权利要求1所述的一种基于特征融合的密集行人多目标跟踪方法，其特征在于，所述将相邻帧中靠前的帧特征用预测出的热图进行加权，具体包括：