CN114882344A

CN114882344A - 基于半监督和注意力机制的少样本水下鱼体跟踪方法

Info

Publication number: CN114882344A
Application number: CN202210567252.7A
Authority: CN
Inventors: 胡祝华; 巩龙勤
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-09

Abstract

本发明提供了基于半监督和注意力机制的少样本水下鱼体跟踪方法：步骤1、调整视频帧的大小以适应Yolov4‑tinyCBAM模型的输入；步骤2、半监督训练Yolov4‑tinyCBAM模型；步骤3、将调整过尺寸的视频帧输入到训练后的Yolov4‑tinyCBAM模型中，以获得目标位置信息；步骤4、通过NMS算法对目标位置信息进行处理，移除重复框；步骤5、计算检测阶段的检测框det和保存在跟踪器中的轨迹trk之间的成本矩阵；步骤6、根据成本矩阵，采用匈牙利算法得到匹配结果，并在匹配成功的trk和det中，用在当前帧中获得的det中的检测信息更新trk；步骤7、删除长时间未匹配的trk，并输出跟踪结果。本发明方法在跟踪精度、跟踪效率上具有优越的性能，能够实时准确的实现水下鱼类跟踪，同时解决少样本问题。

Description

基于半监督和注意力机制的少样本水下鱼体跟踪方法

技术领域

本发明涉及深度学习和目标检测领域，具体说，涉及基于半监督和注意力机制的少样本水下鱼体跟踪方法。

背景技术

鱼类作为重要的水质指示生物，其运动行为与水质状态有着密切的联系，鱼类的运动特征、生理特征等信息直接反映了水质环境的好坏。鱼类的运动行为状态参数主要包括游泳速度、加速度、呼吸频率、转弯频率、鳃盖运动频率、浮头频率、张口和闭口频率等。养殖鱼类对于pH值、温度、溶氧量、重金属离子、亚硝酸等水环境参数的变化非常敏感，当水质发生剧烈变化时，其运动行为会因受到刺激而呈现出一定的规律性。由于鱼类对水质的敏感性，常常选取鱼类作为监测对象对水质环境进行分析。

现在的许多鱼类多目标跟踪领域的算法，但这些算法不仅多为非实时算法，无法对速度和精度进行兼顾，还需要大量的数据去训练神经网络。在深度学习中，对模型的训练往往需要大量的有标签数据。全部采用有标签数据训练被称为全监督训练，目前鱼类跟踪领域的算法多为这种方式。但全监督训练需要制作包含大量标注样本的鱼类跟踪和检测数据集，这需要大量的人力成本。而在有标签数据较少的情况下，网络模型容易出现过拟合。

发明内容

本发明的目的是基于半监督和注意力机制的少样本水下鱼体跟踪方法，本发明方法针对当前鱼类跟踪算法实时性不足的问题，也为了解决少样本情况下鱼类跟踪的问题，将注意力机制融入检测网络中，同时通过半监督学习利用有标签和无标签的数据进行鱼体检测和追踪，在提高跟踪算法准确度与实时性的同时，也减少了人工标注标签的成本。

本发明的技术方案是提供基于半监督和注意力机制的少样本水下鱼体跟踪方法，包括以下步骤：

步骤1、调整视频帧的大小以适应Yolov4-tinyCBAM模型的输入；

步骤2、半监督训练Yolov4-tinyCBAM模型；

步骤2.1使用80张有标签的鱼类图片训练目标检测器Yolov4，直到模型收敛；

步骤2.2使用第一步训练的Yolov4检测器模型，生成3507张无标签鱼类图像的伪标签(即边界框和置信度)；

步骤2.3、将无标签的数据与有标签的数据一起输入到Yolov4-tinyCBAM模型中进行训练；

步骤3、将调整过尺寸的视频帧输入到训练后的Yolov4-tinyCBAM模型中，以获得目标位置信息；

步骤4、通过NMS对目标位置信息进行处理，移除重复框；

步骤5、计算检测阶段的检测框det和保存在跟踪器中的轨迹trk之间的成本矩阵；

步骤6、根据成本矩阵，采用匈牙利算法得到匹配结果，并在匹配成功的trk和det中，用在当前帧中获得的det中的检测信息更新trk；

步骤7、删除长时间未匹配的trk，并输出跟踪结果。

进一步地，步骤3所述方法还包括：Yolov4-tinyCBAM模型结构中，CBAM注意力模块位于到Yolov4-tiny的两个输出头之前。首先将图像特征输入到通道注意力模块，根据生成的通道注意力描述对输入的特征进行处理，之后再将经过通道注意力模块优化后的特征输入到空间注意力模块，同样使用生成的空间注意力描述对输入的特征进行优化。

本发明的有益效果是：

(1)本发明基于现有的机器学习中一阶段目标检测模型方法，该方法只需要一个网络模型，输入图像，输出类别和位置信息，就能实现端到端的预测，完美兼顾了速度与精度。在Yolov4-tiny网络中加入了CBAM注意力机制，充分利用数据之间的相关性，为更重要的信息分配更多的权重，同时抑制无效的特征信息，使其在有限的样本中，学习到更多有价值的信息，检测效果更加优越。

(2)本发明针对目标检测任务中数据标记复杂的问题设计了一种新的网络训练方式，即使用半监督的Self-training方法训练模型。将伪标签作为教师网络和学生网络间传递知识的媒介，通过教师网络生成的伪标签，来指导学生网络的训练，完成知识的传递。利用该方法能在少样本标签下实现高精度的网络训练，兼顾速度与性能，同时缓解了传统人工标注数据集的成本过高的问题。

附图说明

图1是本发明基于半监督和注意力机制的少样本水下鱼体跟踪方法的摘要附图；

图2是本发明实施例中半监督训练过程；

图3是本发明实施例中CBAM网络结构示意图；

图4是本发明实施例中通道注意力模型；

图5是本发明实施例中空间注意力模型；

图6是本发明实施例中Yolov4-tinyCBAM模型；

图7是本发明实施例中不同的置信度阈值下生成的标签；

图8是本发明实施例中本发明方法跟踪效果展示。

具体实施方式

以下将结合实施例和图1-8对本发明的构思、具体步骤及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

该实施例中，采用的的实验环境如下：操作系统为Ubuntu，Pytorch为1.4，CUDA为10.0，Python为3.6。硬件环境为TESLA V100，内存16G。

如图1所示，该实例提供的基于半监督和注意力机制的少样本水下鱼体跟踪方法，包括以下步骤：

步骤1、调整视频帧的大小以适应Yolov4-tinyCBAM模型的输入；

对于输入大小为(3840,2160,3)的视频帧，本发明实施例中将其预处理为大小为(416,416,3)的视频帧。

步骤2、将调整过尺寸的视频帧输入到经过半监督训练后的Yolov4-tinyCBAM模型中，以获得目标位置信息；

对于半监督训练，Self-training算法是一种常用的半监督算法，该算法通过生成未标记数据的伪标签，来扩充数据集，但这种方法受到伪标签质量的影响很大，容易受到伪标签中，标注质量较差的标签的影响，有时Self-training甚至会起到负面的效果。受到知识蒸馏方法的启发，本发明提出了一个新颖的Self-training训练方法。知识蒸馏的目的是将一个笨重但具有更高精度的模型的知识，转移到一个更适合部署的小模型上。教师网络通常比学生网络更大更复杂，教师网络具有更好的性能，可以对学生网络进行指导，实现知识的传递。本发明的方法就是通过伪标签作为教师和学生间传递知识的媒介，通过教师网络生成更加准确的伪标签，来指导学生网络的训练，完成知识的蒸馏，训练流程如图2所示，本发明使用Yolov4模型作为教师网络，使用Yolov4-tinyCBAM作为学生网络。为了提高模型的检测性能，Yolov4-tinyCBAM与Yolov4模型在正式训练前，均使用VOC数据集进行预训练。

算法的具体步骤如下：

步骤2.1、首先使用80张有标签的鱼类图片训练目标检测器Yolov4，直到模型收敛；

步骤2.2、使用第一步训练的Yolov4检测器模型，生成3507张无标签鱼类图像的伪标签(即边界框和置信度)；

x,y,w,h,o＝Yolov4-tinyCBAM(frame) (1)

其中，x、y、w、h、o分别代表被检测目标中心的x轴坐标、被检测目标中心的y轴坐标、目标宽度、目标高度、以及检测框的置信度。

注意力机制是对人类视觉系统的模拟，人类视觉系统不会对接收到的全局图像进行处理，而是会有针对性地对重要的局部信息投入更多的注意，以提高获取信息的效率。通过在神经网络中引入注意力机制，可以使网络对重要的局部信息投入更多的关注。Woo等人提出了CBAM模块(Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attentionmodule[C]//Proceedings of the European conference on computer vision(ECCV).2018:3-19.)，同时融合了空间注意力和通道注意力，能有效地提高网络模型的性能，其结构如图3所示。

CBAM可以无缝地添加在任何CNN网络中，由于其轻量的特点，不会给网络增加太多的计算量，并且可以与被添加CBAM模块的CNN网络一起完成端到端的训练，CBAM模块在不同数据集中均有较好的表现，被添加CBAM注意力机制的不同网络的性能都得到了提升，具有广泛的适用性。

如图3所示，CBAM注意力机制由两部分组成，网络中的两个注意力模块独立存在，分别负责对特征的通道和空间加权，CBAM的作者经过实验测试，确定了先通道加权后空间加权的特征处理方式会使网络模型性能得到最大的提升。接下来将对通道与空间注意力机制进行详细地介绍。

卷积层中拥有大量的卷积核，也就因此产生了大量的通道，但并不是每个通道中的信息都很重要，通道注意力机制就是告诉网络，特征图的哪些通道需要被注意。注意力机制通过对需要关注的通道设置更多的权重，对无效的通道进行过滤，实现对特征图的优化。

如图4所示，输入通道注意力模块的特征，首先进行池化操作，对特征进行压缩，以便更好地对通道注意力进行计算。经过两个池化处理后，输出两个一维矢量特征，再将两个输出特征输入到Shared MLP结构，Shared MLP是共享权重的多层感知机。最后，对SharedMLP输出的两个特征进行相加操作，再通过sigmoid激活函数，就得到了对通道注意力的描述，它描述了需要对特征的哪些通道进行注意以及哪些通道需要忽略。将原始的输入特征和通道注意力描述相乘，就得到了优化后的特征。

空间注意力模块关注于特征的位置信息，使网络模型对特征图空间上的重要部分作出更多的响应。如图5所示，是空间注意力的内部结构，首先将输入特征分别经过最大池化和平均池化，再将两个池化产生的特征进行拼接，为了更好地学习特征的空间信息，将拼接后的特征图通过一个卷积层将通道数压缩为1。最后，将特征通过sigmoid函数进行处理，就得到了对空间注意力的描述，它描述了需要对特征的哪些空间位置进行注意以及哪些空间位置需要忽略。将原始的输入特征和空间注意力描述相乘，就得到了优化后的特征。

改进后的模型结构如图6所示，黑色虚线内的部分就是本发明添加的空间注意力模块和通道注意力模块，本发明将CBAM注意力模块添加到Yolov4-tiny的两个输出头之前。本发明首先将图像特征输入到通道注意力模块，根据生成的通道注意力描述对输入的特征进行处理，之后再将经过通道注意力模块优化后的特征输入到空间注意力模块，同样使用生成的空间注意力描述对输入的特征进行优化。

本发明将改进后的网络称为Yolov4-tinyCBAM，Yolov4-tinyCBAM通过注意力机制为更重要的信息分配更多的权重，可以使网络对更重要的特征信息投入更多的关注，同时对无效特征信息进行抑制，提升网络的检测性能。注意力机制能够使Yolov4-tinyCBAM网络充分利用数据，在有限的样本中获取更多有价值的信息。

步骤4、通过NMS算法对目标位置信息进行处理，移除重复框；

x0,y0,w0,h0＝NMS(x,y,w,h,o,c) (2)

其中，x0、y0、w0、h0分别代表NMS处理后检测框的中心x轴坐标、中心y轴坐标、宽度和高度。

非极大值抑制算法(NMS)(Neubeck A,Van Gool L.Efficient non-maximumsuppression[C]//18th International Conference on Pattern Recognition(ICPR'06).IEEE,2006,3:850-855.)能提取高置信度的检测框，抑制低置信度的检测框。一般来说，检测模型会输出大量的检测框，并且许多重复的检测框都位于同一个目标上，NMS用于移除这些重复的检测框。

其具体操作如下：(1)将所有检测框按置信度从高到低排序。(2)取当前置信度最高的框，然后删除和这个框的IoU高于阈值的框。(3)重复第2步直到所有框处理完。

步骤5、计算检测阶段的检测框和保存在跟踪器中的轨迹之间的成本矩阵；

Ca＝[c_i,j]＝IOU(D,T) (3)

其中，Detection和Track缩写为det和trk，D为检测阶段的检测框集合(x0,y0,w0,h0)Packaged as D＝{det1,...,detM}，T为保存在跟踪器中的轨迹的集合，T＝{trk1,...,trkM},本发明为第一次出现的目标创建一个track，并将其放在track池中，track包含了目标位置，速度等信息，同时将检测框和track的IoU(交并比)来定义损失矩阵Ca，c_i,j表示前一帧第i个检测框与这一帧第j个track的IoU。

步骤6、根据成本矩阵Ca，采用匈牙利算法得到匹配结果，并在匹配成功的trk和det中，用在当前帧中获得的det中的检测信息更新trk；

其中，Ma,Ut,Ud分别表示IoU匹配后匹配成功的trk和det，未匹配成功的trk，未匹配成功的det。

匈牙利算法(Hungarian algorithm)主要用于解决一些与二分图匹配有关的问题(J.Munkres,"Algorithms for the Assignment and Transportation Problems",Journal of the Society for Industrial and Applied Mathematics,5(1):32–38,1957March.)。该算法的核心就是寻找增广路径，它是一种用增广路径求二分图最大匹配的算法。

步骤7、删除长时间未匹配的trk，并输出跟踪结果。

x1,y1,w1,h1,ID＝Output matching results(T) (5)

其中，x1、y1、w1、h1、ID分别表示跟踪框的中心x轴坐标、中心y轴坐标、宽度、高度、编号ID。

本发明将使用半监督训练方式训练的Yolov4-tinyCBAM网络称为SSL-Yolov4-tinyCBAM。半监督训练中需要依据置信度对标签进行筛选，不同的置信度阈值生成的标签如图7所示，在实验部分本发明实施例对置信度的选择进行了实验测试，最后选择0.7作为置信度阈值，此时半监督训练的效果最好。此外，本发明实施例还测试了另外两种半监督训练流程，第一种方式，使用Yolov4生成伪标签，去训练Yolov4-tiny模型。第二种方式，使用Yolov4-tinyCBAM生成伪标签，去训练Yolov4-tinyCBAM模型。

本发明实施例中所用鱼类视频采集于在中国海南省陵水渔场安装的水下摄像头，视频图像分辨率为3840*2160*3。数据集总共4500张图片，其中1000是有标注的图片。这1000张图片中80张作为训练集，920张作为测试集。

对检测部分，本发明实施例使用COCO的mAP，作为评价指标。AP50指的是IoU的值取50％，此时当检测框与真值IoU达到50％以上时，认为检测成功。AP75指的是IoU的值取75％。AP代表AP[.50:.05:.95]，指的是IOU的值从50％取到95％，步长为5％，然后算在在这些IOU下的AP的均值。

对跟踪结果，本发明实施例使用MOTchallenge标准(Neubeck A,Van GoolL.Efficient non-maximum suppression[C]//18th International Conference onPattern Recognition(ICPR'06).IEEE,2006,3:850-855.)评测实验效果，包括MOTA，MOTP，IDF1，IDs，MT，ML。

MOTA代表跟踪的准确度，MOTA越大越好。MOTP代表跟踪的精度，MOTP越大越好。IDF1代表正确识别的检测与平均真实数和计算检测数之比，越大越好，MT代表至少在80％的时间内都匹配成功的track，在所有追踪目标中所占的比例，越大越好，ML代表成功匹配时间小于20％的时间内的track，在所有追踪目标中所占的比例，越小越好。

检测部分实验：首先，不使用半监督训练方法，对添加CBAM注意力机制的效果进行测试，实验结果如表1所示。实验中，Yolov4-tinyCBAM首先在VOC数据集上进行预训练，然后使用80张有标签的鱼类图片对Yolov4-tinyCBAM进行训练，训练时batchsize设置为16，训练3000个epochs，前1500个epochs学习率为0.01,后1500个epochs学习率为0.001。Yolov4-tiny与Yolov4-tinyCBAM的实验设置相同。从表1可以看出，CBAM注意力模块可以有效增强网络的特征提取能力，关注图像中更有价值的特征，提高网络的检测性能。增加CBAM模块后，模型AP提高了5.5％，达到了52.2％，识别精度得到了极大地提升。

表1 CBAM注意力机制测试效果

半监督训练的第一阶段中，Yolov4会先在VOC数据集上进行预训练，然后再使用80张有标签的鱼类图片对Yolov4进行训练，训练时batchsize设置为8，训练3000个epochs，前1500个epochs学习率为0.01,后1500个epochs学习率为0.001。半监督训练的第三阶段中，Yolov4-tinyCBAM同样先在VOC数据集上进行预训练，然后使用有标签数据和伪标签数据一起训练Yolov4-tinyCBAM模型，训练时batchsize设置为16，训练100个epochs，前50个epochs学习率为0.01,后50个epochs学习率为0.001

在在伪标签生成阶段，Yolov4置信度阈值的选取非常重要，如图6所示，过高的置信度阈值会造成漏检，而过低的置信度阈值又会造成误检，如表2所示，经过多次实验测试，本发明选择的置信度阈值为0.7，此时最能反应模型性能的AP指标达到最高。经过半监督训练后，本发明模型的AP达到了57.2％，比之前不采用半监督训练的模型提升了5％，而同时时间开销并没有增加，本发明在不付出额外成本的情况下，提升了模型的性能，成功完成了知识的迁移。

表2 不同置信度阈值下的半监督训练效果

如表3所示，是半监督训练效果的对比，Yolov4和Yolov4-tinyCBAM是只使用80张有标签的数据，而不采用半监督训练的效果，可以看出Yolov4具有优秀的检测性能，但速度较慢，本发明的目的就是以伪标签作为媒介，将Yolov4所具有的检测性能迁移到更快的Yolov4-tinyCBAM模型中。

SSL-Yolov4-tinyCBAM是本发明提出的半监督训练方法，用Yolov4生成伪标签，去训练Yolov4-tinyCBAM模型。SSL-Yolov4-tiny和半监督算法一是本发明实施例测试的另外两种半监督训练流程，SSL-Yolov4-tiny是使用Yolov4生成伪标签，去训练Yolov4-tiny模型。半监督算法一是使用Yolov4-tinyCBAM生成伪标签，去训练Yolov4-tinyCBAM模型。如表3所示，SSL-Yolov4-tinyCBAM算法在三种半监督训练方式中性能最好，在Yolov4生成的伪标签的帮助下，提升了模型的性能，AP值提高了5％，达到了接近Yolov4模型的效果。SSL-Yolov4-tiny算法由于使用Yolov4-tiny作为学生网络，性能稍差。半监督算法一使用Yolov4-tinyCBAM生成伪标签，由于伪标签的标注质量较差，所以模型的检测性能提升较小，在三种半监督方法中检测效果最差。

表3 半监督训练效果

跟踪效果对比如表4所示，Yolov4-tiny+Sort表示表1中只使用80张有标签的鱼类图片进行训练的Yolov4-tiny模型结合Sort算法产生的鱼类跟踪方案。Yolov4-tinyCBAM+Sort(ours)表示表1中只使用80张有标签的鱼类图片进行训练的Yolov4-tinyCBAM模型结合Sort算法产生的鱼类跟踪方案。Self-train+Sort(ours)表示表3中使用半监督方式进行训练后的SSL-Yolov4-tinyCBAM模型结合Sort算法产生的鱼类跟踪方案。可以看到SORT的跟踪效果受到检测的影响很大，检测效果越好，跟踪效果便越好，使用Self-train+Sort的方式性能达到最优，与Yolov4-tinyCBAM+Sort形式相比，MOTA高了3.9％，MOTP高了0.4％。本发明算法的跟踪效果如图8所示，每一条鱼的运动的运动轨迹都有标明。

表4 半监督训练效果

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.基于半监督和注意力机制的少样本水下鱼体跟踪方法，其特征在于，其特征在于：包括以下步骤：

步骤1、调整视频帧的大小以适应Yolov4-tinyCBAM模型的输入；

步骤2、半监督训练Yolov4-tinyCBAM模型；

步骤2.1、使用80张有标签的鱼类图片训练目标检测器Yolov4，直到模型收敛；

步骤4、通过NMS算法对目标位置信息进行处理，移除重复框；

步骤7、删除长时间未匹配的trk，并输出跟踪结果。

2.根据权利要求1所述的方法，其特征在于，步骤3所述方法还包括：Yolov4-tinyCBAM模型结构上，CBAM注意力模块位于到Yolov4-tiny的两个输出头之前。首先将图像特征输入到通道注意力模块，根据生成的通道注意力描述对输入的特征进行处理，之后再将经过通道注意力模块优化后的特征输入到空间注意力模块，同样使用生成的空间注意力描述对输入的特征进行优化。