CN115546259A

CN115546259A - 一种用于变电站复杂场景下的多目标跟踪方法

Info

Publication number: CN115546259A
Application number: CN202211157466.3A
Authority: CN
Inventors: 唐静远
Original assignee: Chengdu Sihan Technology Co ltd
Current assignee: Chengdu Sihan Technology Co ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-30

Abstract

本发明属于目标跟踪识别技术领域，尤其涉及一种用于变电站复杂场景下的多目标跟踪方法。本发明解决问题的技术方案是：(1)结合RepVGG骨干网络设计快速特征金字塔结构，提出一种基于无锚框的多类别多目标实时跟踪网络。(2)通过引入重识别改进方法，对目标识别预测头的特征向量进行优化，提升识别的精确度。(3)在结构重参数化RepVGG主干网络中引入机制压缩‑激励(SE)模块，增强对重要目标的特征提取。本发明创新的无锚框网络结构保证精度的同时降低参数量和推理时间，简化跟踪流程，且满足变电站应用场景下的鲁棒性和实时性要求。

Description

一种用于变电站复杂场景下的多目标跟踪方法

技术领域

本发明属于目标跟踪识别技术领域，尤其涉及一种用于变电站复杂场景下的多目标跟踪方法。

背景技术

近年来，随着智能电网的提出及快速发展，无人值守变电站在一定程度上决定了电网的智能化发展，而变电站场景下的运动目标跟踪是实现变电站场景无人值守的必要条件。通过对变电站场景内移动目标(人员、动物或车辆)的自动检测和跟踪，可以解决当前变电站内存在的安全隐患，同时也能快速准确地检测出变电站由移动目标的非法入侵和误入间隔造成的安全事故，提高变电站的自动识别水平并进行实时预警，极大地降低了监控人员的工作量，为电力安全提供了充分保障。

变电站内存在遮挡严重，在检修作业过程多个目标相距较近，特征相似性严重，容易出现目标跟丢、目标被遮挡无法识别等情况，很难对目标准确实时跟踪。

多目标跟踪的目的是同时识别与跟踪视频中的多个目标，并为多个目标分配唯一且长时间有效的ID号，以获得目标的运动轨迹。由于目标尺度变换和频繁遮挡等问题，多目标跟踪仍有许多问题需要解决。

随着深度学习的快速发展，目标检测算法的精度不断提高，学者们提出了基于检测的跟踪策略。基于检测的跟踪任务分两步走：首先进行目标检测并初始化轨迹，再利用Re-ID算法和匹配算法把后续检测结果与现有轨迹连接，最终获得目标的完整运动轨迹。但该类方法在检测和匹配过程需要分别提取图像特征，非常耗时，不满足实时性要求。为提高跟踪效率，一种采用共享特征提取网络被提出。共享特征提取网络方法将目标检测和Re-ID中的embedding提取模块集成到单一网络中，使用多任务训练，能并行输出目标检测信息和Re-ID特征，完成跟踪任务。此类方法通过单一网络的共享学习，避免了特征重复提取的冗余计算，达到接近实时的跟踪效果，但在单一网络中提取检测和表观两种不同的特征，很难使两个任务同时达到最好的效果，因此跟踪精度低于两步跟踪方法。

FairMOT指出anchor-based检测器存在回归检测框歧义等问题，不适合单一共享网络方法，并提出使用基于无锚检测的CenterNet作为检测器，减少Re-ID特征的模糊性，进一步提升了跟踪精度，并达到实时要求。但由于FairMOT是基于中心点的跟踪算法，仅在目标中心位置设置Re-ID可学习特征，导致特征质量不高，在目标尺度变换或被遮挡时容易发生ID切换和漏跟。同时Re-ID任务过分依赖于检测精度，若检测器未准确命中目标中心点，则会影响ID识别效果，跟踪的鲁棒性不强。

目前的跟踪方法大都致力解决单类多目标跟踪问题，变电站复杂场景下的跟踪任务经常需要同时完成多类多目标的跟踪任务。

发明内容

为解决变电站遮挡严重场景下的多类多目标跟踪容易跟丢、难以找回目标及实时性要求高等难题，本发明提出一种基于注意力机制的无锚框网络结构，在确保跟踪精度的同时，进一步降低网络的参数量与推理时间的多类别多目标实时跟踪方法。

本发明解决问题的技术方案是：(1)结合RepVGG骨干网络设计快速特征金字塔结构，提出一种基于无锚框的多类别多目标实时跟踪网络。(2)通过引入重识别改进方法，对目标识别预测头的特征向量进行优化，提升识别的精确度。(3)在结构重参数化RepVGG主干网络中引入机制压缩-激励(SE)模块，增强对重要目标的特征提取。

具体方法包括：

构建跟踪网络，包括特征提取模块和检测与识别模块，所述特征提取模块采用RepVGG作为骨干网，并引入注意力机制和快速FPN，具体为：RepVGG特征提取网络包括五个阶段，分别在第一阶段和第二阶段之间嵌入第一注意力机制模块、在第五阶段之后添加第二注意力机制模块；快速FPN包括第一FFPN模块和第二FFPN模块，其中第一FFPN模块的输入为第三阶段的输出和第二FFPN模块的输出，第二FFPN模块的输入为第四阶段的输出和第二注意力机制模块的输出，第一FFPN模块的输出作为特征提取模块的输出；

所述检测与识别模块为预测头部，包括四路并行的预测头，分别为：目标类别预测头、目标中心定位补偿预测头、目标边框尺寸预测头、目标识别预测头；

在变电站复杂场景下采集图像作为训练数据，对所构建的跟踪网络进行训练后，将得到的推理模型进行部署用于多目标的跟踪。

进一步的，所述注意力机制模块的嵌入用于使得模型关注信息量大的通道特征，并抑制不重要的通道特征，所述第二注意力机制模块的嵌入用于使特征提取网络能够在ImageNet预训练的模型参数基础上进行初始化参数，从而加快训练速度。

进一步的，所述FFPN模块采用一个3×3大小的卷积核对输入的深层特征进行提取，并经过线上采样后与输入的浅层特征融合得到融合特征。

进一步的，对于目标识别预测头采用含有标签平滑的交叉熵损失：

其中，ID为输入目标特征向量，N为目标种类总数，i为样本，y为实际标签，p_i为全连接层关于识别真值标签q_i的预测值，ε为一个常数。

进一步的，所述检测与识别模块的检测任务包括检测类别损失、目标中心定位补偿损失、目标边框尺寸预测损失，其中，检测类别损失使用含有焦点损失的像素逻辑回归，其表达式如下：

其中，

为目标关键点在图像坐标(x,y)中的真值，

为目标中心点下采样后的位置，σ_p为标准差，

为类型检测预测头输出特征图，α,β为焦点损失系数，N为当前图像中的目标数量，C为当前目标类别；

目标中心定位补偿损失使用一维欧式距离损失，具体公式为：

其中，

为目标中心定位补偿真值，

为目标中心定位补偿预测头输出特征图；

目标边框尺寸预测损失公式同样使用一维欧式距离损失，具体公式为：

其中，S_i＝(w_i,h_i)为目标边框尺寸真值，

为目标边框尺寸预测头输出特征图；

检测任务损失函数为：

L_DET＝λ_heatL_heat+λ_offL_off+d_sizeL_size

λ_heat，λ_off，λ_size分别为不同部分的损失权重。

进一步的，对跟踪网络进行训练为采用多任务联合学习损失函数对检测和识别任务进行训练，其中识别任务的损失函数为：

L_ID＝λ_LSCEL_LSCE+λ_TriL_Tri+λ_CenL_Cen

其中，L_Tri为三元组损失，L_Cen为中心损失，λ_LSCE，λ_Tri，λ_Cen分别为不同部分的损失权重；

则总损失函数为：

其中，w₁和w₂为可学习常数参数，用于平衡分类任务与检测任务的权重。

本发明的有益效果是：

(1)创新的无锚框网络结构保证精度的同时降低参数量和推理时间，简化跟踪流程，且满足变电站应用场景下的鲁棒性和实时性要求；(2)将深度学习单类别多目标跟踪网络扩展至多类别多目标跟踪网络，真正实现多类别多目标跟踪；(3)通过引入SE注意力机制和重识别领域改进方法，优化目标识别预测头的特征向量，提升识别的精度。(4)对目标特征向量赋予运动距离信息，有效解决目标无规则运动跟踪不匹配问题。

附图说明

图1为基于注意力机制RepVGG的无锚框跟踪网络。

图2为SE模块结构。

图3为FFPN层间融合结构。

具体实施方式

下面结合附图，详细描述本发明的技术方案。

本发明的特征提取网络中，骨干网络选用RepVGG-A0，这种网络借鉴ResNet的残差结构，在传统VGG模型中引入多分支结构。相较传统VGG模型，能够显著提升精度。同时，多分支融合技术将卷积层与归一化层进行融合，将多路不同大小的卷积核转化为多路3×3卷积核，并最终融合为单路3×3卷积核。部署模式网络模型仅含有3×3卷积与ReLU激活层，因没有残差旁路的引入而拥有更小的显存消耗，且3×3卷积相较其他大小的卷积计算密度更高，更加有效。RepVGG网络采用训练多分支模型→转换为单路模型→部署单路模型的方式。训练状态模型通过解耦得到推理状态模型，具有多分支模型训练时性能高，单路模型推理时速度快等优势。

利用RepVGG进行变电站内目标检测，在训练集上训练时使用较为复杂的训练状态模型，尽可能地提升变电站内目标检测模型的准确度；在测试集上测试或实际部署时，使用解耦后简洁的推理状态模型，以提升变电站内目标检测的推理速度，满足测试部署实时响应使用要求。

本发明RepVGG-A0轻量网络结构配置见表1：

表1RepVGG特征提取网络结构配置

阶段	输出大小	阶段首层	阶段其它层
				阶段1	144×400	1×(R<sub>1</sub>-48)
阶段2	72×200	1×(R<sub>1</sub>-48)	1×(R<sub>2</sub>-48)
				阶段3	36×100	1×(R<sub>1</sub>-96)	3×(R<sub>2</sub>-96)
阶段4	18×50	1×(R<sub>1</sub>-192)	13×(R<sub>2</sub>-192)
				阶段5	9×25	1×(R<sub>1</sub>-1280)

表1中a×(ω-b)表示该阶段通道数为b的ω残差结构共有a个(ω＝残差结构R₁或ω＝残差结构R₂)，如阶段1的首层为：通道数为48的残差结构R₁共有1个。基于改进RepVGG-A0的特征提取网络结构共5个阶段22层网络。

本发明的网络是在RepVGG特征提取网络中，引入注意力机制SENet，具体在在阶段1和阶段5添加SE模块，使得每轮训练都能获得图像更多的细节信息，提高模型检测精度，改进RepVGG特征提取网络结构配置见表2：

表2改进RepVGG特征提取网络结构配置

阶段	输出大小	阶段首层	阶段其它层
				阶段1	144×400	1×(R<sub>1</sub>-48)	SE
阶段2	72×200	1×(R<sub>1</sub>-48)	1×(R<sub>2</sub>-48)
				阶段3	36×100	1×(R<sub>1</sub>-96)	3×(R<sub>2</sub>-96)
阶段4	18×50	1×(R<sub>1</sub>-192)	13×(R<sub>2</sub>-192)
				阶段5	9×25	1×(R<sub>1</sub>-1280)	SE

SENet主要的贡献为压缩-激励SE模块，该模块能让模型关注通道与通道之间的关系，自动学习到不同通道特征的重要程度。SE整体结构见图2。

注意力机制SENet的嵌入使得模型更加关注信息量大的通道特征，并抑制不重要的通道特征。同时为了可以使用迁移学习权重，在不改变特征提取网络RepVGG结构的前提下，在网络的最后阶段直接嵌入注意力机制，使得特征提取网络可以在ImageNet预训练的模型参数基础上进行初始化参数，加快训练速度。

为了获得更多精度收益同时确保跟踪网络的实时性，本发明设计快速FPN，其层间融合结构如图3所示。该结构使用最少卷积操作次数进行搭建，进一步提升速度。采用常规卷积与线上采样，仅使用一个3×3大小的卷积核同时进行特征提取与通道数匹配调整，并消除采样混叠效应。在预测的最浅层的层间特征融合后追加3×3大小的卷积操作，用于消除采样混叠效应。

检测与识别分支的设置：设输入图像大小为3×H×W(H与W分别为图像的高与宽，3为通道数)，则经FFPN输出的特征图大小为256×H/4×W/4，使用并行的4路卷积分支生成最终用于检测与识别的特征图。

(1)目标类型预测头：输出特征图大小为n_c×H/4×W/4，n_c为跟踪目标类别数量。

(2)目标中心定位补偿预测头：输出特征图大小为2×H/4×W/4，用于进一步提升目标定位的精度。

(3)目标边框尺寸预测头:输出特征图大小为2×H/4×W/4，用于预测目标的宽高大小。

(4)目标识别预测头：输出特征图大小为128×H/4×W/4，用于提取目标的特征向量。

因此综上得到本发明网络的整体结构为如图1所示。

对于输入图像，目标识别预测头输出当前图像中所有目标的特征向量，并用输出尺度为目标种类数量的全连接层进行任务回归，原始交叉熵损失计算如下：

式中：ID为输入目标特征向量；N为目标种类总数；i为样本；y为实际标签；Cp_i为全连接层关于识别真值标签q_i的预测值。

上述回归问题可作为标签分类问题，使用标签平滑策略有助于减少目标识别预测头训练过程中的过拟合问题，即含有标签平滑的交叉熵损失：

式中：ε为一个很小的常数。模型减少对训练标签的信任度，从而减少训练过程中的过拟合问题，提高模型在测试集中的泛化能力。

本发明中跟踪处理主要含3部分：特征向量匹配、卡尔曼滤波目标运动预测、IoU匹配。为解决变电站场景由于目标无规则运动时引起卡尔曼滤波无法准确估计目标下一帧位置问题，引入卡尔曼滤波与IoU匹配过程相似的位置关联效果，在原有计算特征向量间余弦距离的基础上，加入目标帧间运动距离的惩罚项，对特征向量赋予帧间运动距离信息，进一步提升跟踪处理效果。

式中：T₁与T₂为模型提取的目标特征向量；cos(·,·)为计算特征向量间的余弦距离；

为目标帧间运动距离惩罚项，d(T₁,T₂)为目标像素间距离，τ为惩罚系数。

本发明中检测任务包括检测类别损失，目标中心定位补偿损失以及目标边框尺寸预测损失。检测类别损失使用含有焦点损失的像素逻辑回归，其表达式如下：

其中，

为目标关键点在图像坐标(x,y)中的真值；

为目标中心点下采样后的位置；σ_p为标准差；

为类型检测预测头输出特征图；α,β为焦点损失系数；N为当前图像中的目标数量；C为当前目标类别。

目标中心定位补偿损失使用一维欧式距离损失，具体公式为

式中：

为目标中心定位补偿真值；

为目标中心定位补偿预测头输出特征图。

目标边框尺寸预测损失公式同样使用一维欧式距离损失，具体公式为

式中：S_i＝(w_i,h_i)为目标边框尺寸真值；

为目标边框尺寸预测头输出特征图。

综上，检测任务损失函数可表示为

L_DET＝λ_heatL_heat+λ_offL_off+λ_sizeL_size

式中：λ_heat，λ_off，λ_size分别为不同部分的损失权重。

对于识别任务损失函数包含带有标签平滑的交叉熵损失、三元组损失、中心损失，则识别任务损失函数可表示为：

L_ID＝λ_LSCEL_LSCE+λ_TriL_Tri+λ_CenL_Cen

式中：λ_LSCE，λ_Tri，λ_Cen分别为不同部分的损失权重。

使用多任务联合学习损失函数对检测和识别任务进行训练，总损失函数可表示为

式中：w₁和w₂为可学习常数参数，用于平衡分类任务与检测任务的权重。

在MCMOUD数据集上训练和验证MCMOT算法。在包括类别和边框的检测分支，对于每个锚框，如果和某个基准框的交并面积比大于0.5，就将该锚框视分配给该基准框，否则将该锚框视为背景；对于每一个基准框，将交并面积比最大的锚框分配给它。在跟踪分支，对于每个锚框，如果和某个基准框的交并面积比大于0.7，就将该锚框视分配给该基准框，否则将该锚框视为背景。在PyTorch框架下利用冲量随机梯度下降法训练MCMOT模型，权重衰减率设定为0.00004，冲量设置为0.9。训练的批次大小设定为32，#classes设置为MCMOUD数据集中的类别数量(包括背景)，dim_embed设定为256，α_t和γ分别设置为0.25和2。训练分为两阶段，第一阶段先移除嵌入分支，在COCO数据集上预训练；第二阶段用预训练模型初始化MCMOT模型参数，采用线性学习率预热策略，在最初的1000个批次逐步将学习率增长到基准学习率0.001，然后在第25和37个周期分别将学习率衰减10倍，总共训练50个周期。

在MCMOUD数据集上评估MCMOT算法的性能。在MCMOT算法的推理阶段，模型的预测输出包括{C_{1×#classes×i×j},B_1×4×i×j,E_{1×dim_embed×i×j}}，其中的(i,j)∈{(32,32),(64,64),(128,128),(256,256)}，C表示类别概率预测值，B表示边框参数预测值，E表示嵌入特征预测值。在类别概率C上获取所有非背景、类别概率大于0.5的点的坐标，然后以该坐标提取B上相应位置的边框参数、提取E上同样位置的嵌入特征向量。将预测的目标表示为(#classes+4+dim_embed)维向量，汇总所有目标为集合{T_i,i∈1,2,...,N}。采用非最大值抑制算法移除多余的重叠目标，然后综合考虑嵌入特征距离和空间距离，建立目标的动力学模型，采用卡尔曼滤波算法关联不同帧的同一个目标，形成该目标的轨迹。最后利用开源的MOT开发工具包评估MCMOT算法的MOTA、IDF1、MT、ML、IDs、FPSD、FPSA和FPS等指标。

最后，用某变电站检修作业过程中采集的实际数据进行训练，将优化后的推理模型部署在基于国产CPU海光7285和AI加速卡寒武纪MLU270硬件环境的边缘设备上，测试实际效果显示该方法能实时跟踪变电站复杂场景下的多类多目标跟踪，跟踪效果满足作业安全管控需求。