CN115937251A

CN115937251A - 一种用于虾类的多目标跟踪方法

Info

Publication number: CN115937251A
Application number: CN202211370858.8A
Authority: CN
Inventors: 段青玲; 刘怡然; 李备备; 李道亮
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-04-07

Abstract

本发明公开了属于计算机视觉技术领域，特别涉及一种用于虾类的多目标跟踪方法，包括：构建训练数据集、搭建、训练、使用虾类多目标跟踪模型，完成虾类多目标跟踪。基于YOLOX模型，增加外观表示提取分支，实现端到端地同时训练检测模型和外观表示；在检测框回归分支上增加跨维度特征加权模块，提升检测器对目标位置的预测精度；采用不确定损失函数，动态调整权重。在对虾类进行跟踪时，采用级联匹配的策略，考虑外观特征以及检测分数低的对象，解决密集场景下相互遮挡问题。本发明所述多目标跟踪方法能够实现密集场景下虾类的在线跟踪并获取运动轨迹，解决虾类跟踪过程中目标小、ID频繁切换的问题。

Description

一种用于虾类的多目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种用于虾类的多目标跟踪方法。

背景技术

多目标跟踪的目的是得到一个目标集合的轨迹，依据轨迹信息可以对目标的行为进行判断，在视频监控、自动驾驶、行为学研究领域都有广泛应用。工厂化养殖是水产养殖的发展趋势，在工厂化养殖车间通过智能化监控技术监测虾类的养殖环境，通过分析视频数据对其异常状态和行为进行分析，对实现虾类健康养殖有重要意义。其中，对虾类目标跟踪能够反映其运动特征和规律，及时发现异常问题，是实现其健康养殖的重要途径。一方面，虾类的运动状态变化是水质变化最直接的现象，能够作为养殖环境变化的生物预警指标，在水质恶化时迅速发现异常。另一方面，虾类的运动模式也是其健康程度的重要指标，在应激、病弱、低温、污染物暴露等不良状态下，其运动模式会发生改变。

近年来，对视频中多目标跟踪的研究多数是针对行人和车辆的研究，用于实现车辆的自动驾驶，也有一些研究用于跟踪工业生产中的其他目标，以辅助安全生产。基于检测的跟踪是近年来主流的跟踪方法，该方法通常包含2个步骤，一是利用高精度的检测器对每一帧中的每一个对象进行定位，二是对每个对象进行跨帧的身份恢复，也就是将当前帧中的对象与前一帧中的对象进行数据关联，成功匹配的对象组成连续的轨迹。早期的算法将目标检测和外观特征提取分开，导致训练和推理速度都比较慢，后来有学者提出了将两者同时训练的方法，许多算法采用了这个方式，被称为联合检测和嵌入。在工厂化水产养殖中，已有对鱼类进行跟踪并获得其活动轨迹的研究。与对人类跟踪相比，鱼类的外观特征更难辨识，会导致跟踪过程中目标ID的频繁切换。

在对虾类跟踪过程中，全景摄像头下虾类目标辨识度低、密集养殖场景下目标ID频繁切换，导致虾类运动轨迹跟踪效果不佳，成为亟待解决的技术问题。

发明内容

本发明的目的是提供一种用于虾类的多目标跟踪方法，其特征在于，包括如下步骤：

S1：采集虾类俯视视频，构建虾类多目标跟踪模型训练数据集；

S2：搭建基于多任务学习和级联策略的虾类多目标跟踪模型，所述虾类多目标跟踪模型在YOLOX模型上增加外观表示提取分支以及跨维度特征加权模块；所述虾类多目标跟踪模型包括：骨干网络、特征融合网络以及分类预测网络，所述分类预测网络基于YOLOX模型，包括分类分支、置信度回归分支以及检测框回归分支；

S3：使用虾类多目标跟踪模型训练数据集，采用迁移学习方法训练虾类多目标跟踪模型；

S4：基于训练后的虾类多目标跟踪模型，采用级联数据关联方法进行在线跟踪，绘制虾类运动轨迹。

所述步骤2中的外观表示提取分支的结构定义为：

F_scale(z,avgp(f₁))＝F_scale(σ(W₁δ(W₀avgp(f₁))) (2)

其中，*代表卷积，×代表逐元素的乘法，o_reid为外观提取分支的输出,

表示通道过滤器的集合，f₀表示骨干网络提取的特征图，f₁表示残差网络提取的特征图，F_scale()表示通道维度的规模变换，z表示一系列线性映射组合，avgp()表示平均池化，W₀和W₁表示训练所得权重，σ()表示Sigmoid激活函数，δ()表示ReLU激活函数。

所述外观表示提取分支的执行步骤为：

将骨干网络获取的图像特征输入2个基础组合模块进行进一步特征提取；

将特征提取的结果输入残差网络提取出虾类的外观特征；

将外观特征输入SE-Net网络，从通道维度对外观特征进行加权，获得虾类外观特征的表达。

所述步骤2中跨维度特征加权模块的结构定义为：

其中，

表示通道过滤器的集合，f₂表示经过的通道注意力加权后的特征图，W₂和W₃表示训练所得权重，o_reg表示检测框回归分支的输出，

和

表示空间过滤器的集合。

所述跨维度特征加权模块的执行步骤为：

将特征提取的结果依次输入1个卷积层、1个通道注意力模块以及1个空间注意力模块；

获得虾类检测框的中心位置、高度和宽度。

所述步骤3中训练虾类多目标跟踪模型的步骤为：

输入经过标注的虾类视频帧；

通过骨干网络提取图像特征，经过特征融合网络后，将图像特征输入分类预测网络，得到视频帧中多个对象的外观特征、分类、置信度和检测框；

将预测结果和标注进行对比，采用不确定损失函数计算损失值，并进行反向传播；

通过优化器对所述虾类多目标跟踪模型进行参数优化。

所述不确定损失函数的定义为：

l_det＝w₃×l_cls+w₄×l_obj+w₅×l_reg (7)

l_cls＝-(y_n×log(σ(z_n)))+(1-y_n)×(1-log(σ(z_n))) (8)

l_obj＝-(y_n×log(σ(z_n)))+(1-y_n)×(1-log(σ(z_n))) (9)

其中，l_id为外观表示提取分类任务采用的交叉熵损失函数，N为训练集中的样本数量，K为类别数量，lⁱ(k)为个体Ground truth标签，p(k)为观测样本属于类别k的概率，l_det为检测任务采用的损失函数，由l_cls、l_obj、l_reg三个任务组合而成，l_cls和l_obj为BCEWithLogitsLoss损失函数，l_reg为IoU损失函数，w3,w4的取值为1，w5取值为5，表示Sigmoid激活函数，z_n表示预测第n个样本为正例的得分，y_n表示第n个样本的标签，w1和w2分别是l_id和l_det的权重。

所述步骤4中级联数据关联方法的步骤为：

S41：将视频中第一帧中检测到的目标初始化为跟踪对象，并基于预置的跟踪置信度阈值将检测对象分为高分对象和低分对象；

S42：在后续的视频帧中分2个阶段关联检测对象和跟踪对象：

第一阶段，首先基于当前时刻的检测目标，采用Kalman滤波法预测跟踪对象的位置；

然后对高分的检测目标结合运动模型和外观模型计算代价矩阵，根据代价矩阵采用匈牙利算法进行线性分配；

在第二阶段，对低分的检测目标依据检测框IoU距离并采用匈牙利算法进行线性分配；

S43：删除长时间未匹配跟踪对象，将新检测到的且未匹配的检测目标初始化为新的跟踪对象；

S44：将每一个运动对象的轨迹进行连接，得到虾类个体完整的运动轨迹。

所述代价矩阵的计算公式为：

D₁＝λD_iou+(1-λ)D_emb (10)

其中，D_iou是IoU距离，D_emb是余弦距离，λ设置为0.9。

D_iou＝1-IOU (11)

其中，IOU是检测框与预测框的交并比；

其中，u和v分别是检测对象和跟踪对象的外观模型表示矩阵。

所述步骤1中构建虾类多目标跟踪模型训练数据集的步骤为：

安装视频采集设备，确保视频采集设备采集的视频能够覆盖完整的虾类运动范围，将采集到的视频分割为10至50秒的短视频，采用MOT格式对所采集到的视频进行逐帧标注，将标注好的视频分为训练集和测试集。

本发明的有益效果在于：

本发明公开的一种用于虾类的多目标跟踪方法，能够减少密集养殖场景下虾类目标ID切换次数，获取完整的虾类运动轨迹，为定量分析虾类的运动规律提供了支持，也为分析虾类异常行为提供了基础。不仅能够及时发现虾类的异常行为和养殖水质异常，减少潜在经济损失，还对虾类行为学研究有重要意义，具体效果如下：

1、提出了一种基于多任务学习和级联策略的虾类多目标跟踪方法，该方法通过联合训练的方式，能够端到端地获得虾类目标位置及其外观特征，从而实现在密集场景下对虾类进行在线跟踪，在实际水产养殖中具有实用性。

2、该方法在无锚框的检测器YOLOX上增加外观表示提取分支，通过残差机制和SE注意力模块提取了更好的虾类外观表示，能够在跟踪时基于外观特征进行匹配，能够更精确地匹配虾类个体。

3、通过在模型的检测框回归分支上增加跨维度特征加权模块，提升检测器的预测精度，进一步提升跟踪效果。

4、采用了级联数据关联的方式，能够兼顾数据关联的精度和效率，能够处理跟踪对象密集分布的场景。

附图说明

图1为本发明公开一种用于虾类的多目标跟踪方法的流程图；

图2为本发明公开的虾类多目标跟踪模型整体结构图；

图3为本发明中公开的外观表示提取分支网络结构图；

图4为本发明中公开的增加跨维度特征加权模块的检测框回归分支网络结构图；

图5为本发明公开的虾类多目标跟踪模型网络结构图；

图6为本发明公开一种用于虾类的多目标跟踪方法的实施效果图。

具体实施方式

以下结合附图对本发明作进一步的详细说明。

如图1所示的本发明公开一种用于虾类的多目标跟踪方法，具体实施过程分为4个步骤。首先采集虾类俯视视频，构建虾类多目标跟踪模型训练数据集；其次搭建基于多任务学习和级联策略的虾类多目标跟踪模型；然后采用迁移学习方法训练模型；最后基于该模型进行虾类多目标在线跟踪，绘制虾类运动轨迹。具体过程如下：

S1：采集虾类俯视视频，构建虾类多目标跟踪模型训练数据集：

采集虾类俯视视频，构建虾类多目标跟踪模型训练数据集。首先将摄像头安装于养殖池上方，以俯视角度采集虾类视频数据。采集时，尽量将整个虾类的运动范围包含在镜头所覆盖范围之内。然后将视频分割为10-50s的短视频方便数据标注。最后采用MOT格式对所采集的视频进行逐帧标注，并将标注好的视频分为训练集和测试集。

在本实施例中，摄像头安装在养殖池正上方1.5m处，能够拍摄到整个养殖池中的所有虾类个体。采集视频所使用的摄像头参数为Hikvision 3T86FWDV2-I3S(8百万像素,4mm焦距)。所采集的视频分辨率为1920*2560，帧频率为20fps。

S2：搭建基于多任务学习和级联策略的虾类多目标跟踪模型，所述虾类多目标跟踪模型在YOLOX模型上增加外观表示提取分支以及跨维度特征加权模块：

图2为本发明公开的基于多任务学习和级联策略的虾类多目标跟踪模型的整体结构图。下面结合附图对本发明所述一种用于虾类的多目标跟踪方法进行进一步的说明。

如图2所示，所述虾类多目标跟踪模型，包括：骨干网络、特征融合网络以及预测网络，所述分类预测网络基于YOLOX模型，包括分类分支、置信度回归分支以及检测框回归分支，所述虾类多目标跟踪模型在YOLOX模型上增加外观表示提取分支以及跨维度特征加权模块。将视频帧输入虾类多目标跟踪模型后，输出图像中多个对象的外观特征、分类、置信度和检测框，将预测结果与视频帧的标注进行比对，进行损失计算，通过反向传播对虾类多目标跟踪模型进行优化。具体优化过程为：

首先输入经过标注的虾类视频帧，通过骨干网络提取图像特征，经过特征融合后，输入到4个分支中，同时进行外观表示提取、对象分类、对象置信度回归、检测框回归4个任务，得到图像中多个对象的外观特征、分类、置信度和检测框，将预测结果和标注进行对比，分别计算损失函数，并采用不确定损失函数将4者进行组合，得到损失值(误差)进行反向传播，通过优化器更新梯度。

所述骨干网络用于提取图像特征，本实施例中使用YOLOX模型的骨干网络PAFPN，应当注意的是，在本实施中不对骨干网络做出具体限定，例如还能够使用CenterNet的骨干网络DLA34等骨干网络。

本发明对现有的YOLOX模型的基础上进行改进，在YOLOX模型中增加外观表示提取分支用于获取虾类外观特征表示。所设计外观表示提取分支结合了残差网络和压缩扩张网络结构，用于尽可能多地提取对虾类的外观特征。该网络的结构的定义如公式(1)所示。

F_scale(z,avgp(f₁))＝F_scale(σ(W₁δ(W₀avgp(f₁))) (2)

如图3所示，本发明所述外观表示提取分支包括：2个基础组合模块(CBS)、1个残差网络(ResNet)、1个SE-Net网络，上述模块依次连接，所述基础组合模块依次包括：卷积层、批次标准化操作和Silu激活函数。所述外观表示提取分支的执行步骤为：首先将由骨干网络获取的图像特征输入2个基础组合模块进行进一步特征提取，将特征提取的结果输入残差网络提取出虾类的外观特征，将外观特征输入SE-Net网络，从通道维度对外观特征进行加权，获得虾类外观特征的表达。所述残差网络用于提取虾类的外观特征，SE-Net用于从通道维度对外观特征进行加权。SE-Net是一种通道注意力机制，能够根据不同特征的重要性程度进行加权，从而获得更好的虾类外观特征的表达。

考虑到密集场景下视频中的跟踪对象数量较多，在一个可选的实施例中，所述外观表示提取分支的外观特征的表示维度设置为512维。

本发明公开的一种用于虾类的多目标跟踪方法，在无锚框的检测器YOLOX上增加外观表示提取分支，通过残差机制和SE注意力模块提取了更好的水产品外观表示，能够在跟踪时基于外观特征进行匹配，能够更精确地匹配水产品个体。外观表示提取分支能够提取512维的外观表示，即用一个512维的向量编码了虾的外观特征，从而在跟踪阶段进行匹配时，能够同时考虑外观表示和对虾的运动特征，获得更精确的轨迹和候选对象的匹配。通过正确的轨迹和检测对象的匹配，能够减少跟踪时ID的切换次数。

YOLOX模型用于获取目标的分类、置信度和位置。为提高虾类的检测精度，本发明在现有的YOLOX模型的基础上，进行的另一项改进为在YOLOX模型的检测框回归分支上增加一个跨维度特征加权模块。如图4所示，实线框所示为增加跨维度特征加权模块的检测框回归分支，该分支网络的具体计算公式为：

其中，

表示通道过滤器的集合，f₀表示骨干网络提取的特征图，f₂表示经过的通道注意力加权后的特征图，W₂和W₃表示训练所得权重，o_reg表示检测框回归分支的输出，

和

表示空间过滤器的集合。

所述跨维度特征加权模块包括：2个基础组合模块、1个卷积层、1个通道注意力模块以及1个空间注意力模块。所述跨维度特征加权模块的执行步骤为：首先将由骨干网络获取的图像特征输入2个基础组合模块进行进一步特征提取，所得特征分别输入置信度回归分支以及检测框回归分支，在所述检测框回归分支上，将特征依次通过1个卷积层、1个通道注意力模块以及1个空间注意力模块后，得到对象的检测框的中心位置、高度和宽度，所述基础组合模块包括：卷积层、批次标准化操作和Silu激活函数，所述通道注意力模块依次包括：维度转换、全连接层、ReLU激活函数、全连接层，维度转换，所述空间注意力模块依次包括：卷积层、批次标准化操作、ReLU激活函数、卷积层、批次标准化操作、Sigmoid激活函数。

所述跨维度特征加权模块不仅能够反映虾类在空间分布上的重要性程度，还能反映不同通道特征表达的重要程度。最重要的是，该模块能够实现跨维度的交互，解决顺序实现的注意力模块存在的信息损失问题。

本发明公开的一种用于虾类的多目标跟踪方法，通过在所述虾类多目标跟踪模型的检测框回归分支上增加跨维度特征加权模块，能够通过对特征加权，更好地回归得到更贴近目标的检测框，减少相邻对虾之间因为检测框定位不精确，在对轨迹进行匹配时产生错误的匹配，提升检测器的预测精度，进一步提升跟踪效果。

至此完成本发明公开的基于多任务学习和级联策略的虾类多目标跟踪模型的搭建，所述虾类多目标跟踪模型的整理网络结构如图5所示。

S3：使用虾类多目标跟踪模型训练数据集，采用迁移学习方法训练虾类多目标跟踪模型：

训练虾类多目标跟踪模型的步骤为：

输入经过标注的虾类视频帧；

通过优化器对所述虾类多目标跟踪模型进行参数优化。

训练过程中采用同方差的不确定性损失函数组合多个任务的损失函数，该函数能够学习平衡分类和回归损失，具体公式如下：

l_det＝w₃×l_cls+w₄×l_obj+w₅×l_reg (7)

l_cls＝-(y_n×log(σ(z_n)))+(1-y_n)×(1-log(σ(z_n))) (8)

l_obj＝-(y_n×log(σ(z_n)))+(1-y_n)×(1-log(σ(z_n))) (9)

在本实施例的模型训练过程中，应用迁移学习的方法，首先采用YOLOX在COCO数据集上预训练的模型参数进行初始化，能够有效加快训练速度。输入图片的大小设置为960*1280，批大小为8，初始学习率为0.001/64，动量参数设置为0.9，非极大值抑制阈值设置为0.5，学习率衰减为10^-5。总共训练120个epoch，前80个epoch开启数据增益，后40个epoch关闭数据增益。

在本实施例的跟踪过程中，如图6所示，应用本发明公开的一种用于虾类的多目标跟踪方法，对南美白对虾进行跟踪，对于实时的视频数据，首先基于训练好的虾类多目标跟踪模型得到视频中检测目标的类别(考虑到存在有多种虾类的可能性)、置信度、检测框的中心点位置和大小以及目标外观特征。

跟踪过程中采用级联匹配的策略进行数据关联：

S41：将视频中第一帧中检测到的目标初始化为跟踪对象，并基于跟踪置信度阈值将检测对象分为高分对象和低分对象。

S42：在后续的视频帧中，分2个阶段关联检测对象和跟踪对象。

在第一阶段，首先基于当前时刻的检测，采用Kalman滤波法预测跟踪对象的位置。然后将高分的检测目标作为候选对象，结合运动模型和外观模型计算代价矩阵，根据代价矩阵采用匈牙利算法进行线性分配。结合运动模型和外观模型计算代价矩阵的计算公式如下:

D₁＝λD_iou+(1-λ)D_emb (10)

其中，D_iou是IoU距离，D_emb是余弦距离，λ设置为0.9。

D_iou＝1-IOU (11)

其中，IOU是检测框与预测框的交并比；

在第二阶段，将低分的检测目标也作为轨迹候选对象，依据检测框IoU距离并采用匈牙利算法进行线性分配。

S43：删除长时间未匹配跟踪轨迹，说明该轨迹已经结束不需要再跟踪；将新检测到的且未匹配的检测目标初始化为新的跟踪对象。

S44：将每一个运动对象的轨迹连接起来，得到虾类个体完整的运动轨迹。

在本实施例的目标跟踪过程中，非极大值抑制阈值同样设置为0.5，跟踪阈值设置为0.35，匹配阈值设置为0.9，丢失的跟踪对象保留20帧后未再次出现则视为消失。

本发明公开的一种用于虾类的多目标跟踪方法，在在线跟踪阶段采用级联数据关联的方式，在第一阶段仅匹配高分的候选检测框，在第二阶段对本应该丢弃的低分的检测框继续进行匹配。考虑到当虾类比较密集时，容易出现虾类部分身体被遮挡的情况，采用级联数据关联的方式，当目标虾因为遮挡导致检测分数低时，也能通过运动和外观结合的方式获得正确的轨迹匹配。一方面在第一阶段仅匹配高分候选检测框，避免在第一阶段就匹配过多的对象降低效率，另一方面，在第二阶段忽略第一阶段已获得正确匹配的轨迹，有效减少第二阶段需要匹配的轨迹数量，同时匹配高分候选检测框，缓解因为遮挡导致遗漏正确的对象,能够兼顾数据关联的精度和效率，能够处理跟踪对象密集分布的场景。

至此完成应用本发明公开的一种用于虾类的多目标跟踪方法，实现虾类多目标跟踪，所述基于多任务学习和级联策略的虾类多目标跟踪模型具有以下优点：

(1)在无锚点的YOLOX模型上增加一个外观表示提取分支，该分支结合残差网络和压缩扩张网络，利用骨干网络提取的特征学习外观特征表示，实现同时训练检测器和外观表示提取网络，能够实现端到端的训练，不需要准备不同格式的训练数据，实现多任务学习；

(2)在YOLOX模型上增加一个跨维度特征加权模块，用于处理虾类养殖时养殖目标的密集分布问题；该模块除了能够捕捉通道和空间的上的重要性，还考虑跨维度交互，提升检测器的精度，跨维度交互能够同时考虑通道和空间重要性，在顺序地进行通道加权和空间加权以后不损失信息；

(3)在跟踪虾类时，采用级联匹配的策略，考虑外观特征以及检测分数低的候选对象。

为证明本发明公开的一种用于虾类的多目标跟踪方法的实际效果，实施相关实验，实验结果如表1所示，对比YOLOX-s模型与外观表示提取模块和跨维度交互模块进行消融实验的结果。表中向上箭头的指标值越大越好，向下箭头的指标值越小越好。

表1消融实验结果

由表1可知，加入外观表示提取分支后，能够在跟踪时使用外观特征，除ID切换次数(ID switches，IDS)之外，其他指标均获得提升,具体指标为：多目标跟踪的准确度(Multiple Object Tracking Accuracy,MOTA)、多目标跟踪的精确度(Multiple ObjectTracking Precision，MOTP)、ID度量(ID+F1 Score，IDF1)以及多数被跟踪的轨迹比例(Most Tracked,MT)。在此基础上加入跨维度交互模块后，表1中所有指标都获得提升。

在跟踪策略方面，将本发明公开的采用级联匹配的策略的多目标跟踪方法与MOTDT和DeepSort进行对比，实验结果如表2所示，由于三种方法采用相同的检测模型，因此在MOTA和MOTP的值上数据相近。与采用MOTDT和DeepSort跟踪策略相比，本发明公开的多目标跟踪方法在IDF1和MT方面都有所提升，同时ID切换次数方面有所下降。与采用MOTDT和DeepSort跟踪策略相比，本发明公开的多目标跟踪方法的平均前向传播时间(AverageForward Time,AFT)、平均跟踪时间(Average Track Time,ATT)和平均推理时间(AverageInference Time,ATT)均明显降低。

表2不同跟踪策略的对比实验结果

本发明公开的一种用于虾类的多目标跟踪方法，相比于DeepSORT的2阶段跟踪模型，不需要在检测器之外另外训练特征提取网络，有效提高跟踪速度，另一方面，在训练阶段不需要分别针对目标检测模型和重识别模型构建2个训练用数据集，本发明公开的一种用于虾类的多目标跟踪方法，只需要标注一个数据集进行一次训练即可，由表2所示实验结果表明，具有更好的跟踪效果。