CN112818787B

CN112818787B - 融合卷积神经网络和特征相似度学习的多目标跟踪方法

Info

Publication number: CN112818787B
Application number: CN202110091451.0A
Authority: CN
Inventors: 罗智伟; 吴林煌
Original assignee: Fuzhou Ivisionic Technology Co ltd
Current assignee: Fuzhou Ivisionic Technology Co ltd
Priority date: 2021-01-23
Filing date: 2021-01-23
Publication date: 2024-01-19
Anticipated expiration: 2041-01-23
Also published as: CN112818787A

Abstract

本发明涉及一种融合卷积神经网络和特征相似度学习的多目标跟踪方法，包括以下步骤：步骤S1:获取含有多个目标的视频序列图像和每帧图像对应的标签，预处理后分成训练集和测试集；步骤S2:构建卷积神经网络并预训练；步骤S3:将训练集和测试集输入到卷积神经网络中，提取图像中目标的特征向量；步骤S4:根据得到的特征向量，采用相似度函数计算相似度，构建相似度矩阵；步骤S5:根据得到的相似度矩阵，并根据贪心算法实现跨帧匹配目标从而实现多目标跟踪。本发明有效提高匹配的准确率和跟踪的准确率。

Description

融合卷积神经网络和特征相似度学习的多目标跟踪方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种融合卷积神经网络和特征相似度学习的多目标跟踪方法。

背景技术

多目标跟踪是一项计算机视觉任务，目的是为了跟踪视频序列中的前景目标，比如行人、汽车、动物等等。多目标跟踪关键是将视频序列中的同一目标关联起来，并赋予同一身份编号。现有的多目标跟踪方法通过计算相邻帧中目标之间的空间接近度来进行跨帧关联，从而实现跟踪。然而，当图像中目标数量多且拥挤的情况下，目标之间的空间接近度容易出现混淆等问题，从而降低跟踪的准确率。

发明内容

有鉴于此，本发明的目的在于提供一种融合卷积神经网络和特征相似度学习的多目标跟踪方法，有效提高多目标跟踪准确率。

为实现上述目的，本发明采用如下技术方案：

一种融合卷积神经网络和特征相似度学习的多目标跟踪方法，包括以下步骤：

步骤S1:获取含有多个目标的视频序列图像和每帧图像对应的标签，预处理后分成训练集和测试集；

步骤S2:构建卷积神经网络并预训练；

步骤S3:将训练集和测试集输入到卷积神经网络中，提取图像中目标的特征向量；

步骤S4:根据得到的特征向量，采用相似度函数计算相似度，构建相似度矩阵；

步骤S5:根据得到的相似度矩阵，并根据贪心算法实现跨帧匹配目标从而实现多目标跟踪。

进一步的，所述预处理具体为：将输入图像的大小统一为m×n，其中，m是输入图像的行数，n是输入图像的列数。

进一步的，所述步骤S2具体为：基于Pytorch或TensorFlow训练一个结构为卷积层1-池化层1-卷积层2-池化层2-……-卷积层x-池化层x-全连接层的前向传输的卷积神经网络作为主干网络；

输入层：由于输入的是一个m×n的彩色图像，其在二维空间上的维度是m×n；一个像素点相当于一个神经元，故输入层的维度就是三维[m×n,3]；

卷积层1：若卷积层的尺寸是(2m₁+1)×(2m₁+1)，卷积深度为n₁，设定步长为s₁；相当于用n₁个(2m₁+1)×(2m₁+1)的滑动窗口以步长s₁与输入图像在该窗口下的像素相卷积，得到的图像大小为[m,n,n₁]；

池化层1：设定池化步长为s₁、池化尺寸为m₂×m₂、池化方式：最大池化或平均池化；若采用最大池化，则以步长s₁在尺寸为m₂×m₂的滑动窗口扫描卷积层1得到的图像像素，存储该窗口下的最大值；若为平均池化，则以步长s₁在尺寸为m₂×m₂的滑动窗口扫描卷积层1得到的图像像素，存储该窗口下的像素平均值；故该池化层池化后得到的图像大小为

进一步的，所述步骤S3具体为：

步骤S31:将输入的训练集输入到预训练好的卷积神经网络中进行检测出图像中的目标，目标检测置信度和提取出目标对应的特征向量；

步骤S32：将步骤S24所述的特征向量以视频帧的序号划分，设定表示第t帧中身份号为i的目标的特征向量；

步骤S33：使用聚焦三元组损失进一步训练预训练后的卷积神经网络；

步骤S34：保存该卷积神经网络的各项权重值；

步骤S35：将测试集的图像输入到步骤S34中得到的卷积神经网络，并输出网络最终检测出图像中的目标，目标检测置信度和提取出目标对应的特征向量。

进一步的，所述聚焦三元组损失，具体为：

L_tra＝L_aff+L_tri

其中||·||₂表示欧氏距离方程；D表示第t+1帧的目标ID合集，T表示第t+1帧的目标ID合集，表示第t时刻跟踪目标i的特征向量。i,j,q分别表示不同的目标的ID。

进一步的，所述步骤S4具体为：

步骤S41:设定相似度函数，使用欧式距离来计算特征间的差异，再利用负指数幂将差异值映射到[0,1]区间以获得特征间的相似度,或使用余弦相似度作为相似度函数，来计算特征间的相似度；

步骤S42：特征向量只与下一帧中的所有特征向量计算相似度；设定，第t帧中含有m个目标及其特征向量和第t+1帧中含有n个目标及其特征/>使用步骤S41计算F^t和F^t+1之间的相似度，得到相似度矩阵/>

进一步的，所述步骤S5具体包括以下步骤：

步骤S51：根据得到的相似度矩阵A，利用贪心匹配算法来跨帧匹配目标；

步骤S52：对于每个第t+1帧的目标，在目标对A矩阵中含有相似度大于阈值λ_trk的前提下，匹配与其有最大相似度的第t帧的目标，两个被匹配的目标赋予相同的身份号，并作为一条轨迹；

步骤S53：对于没有步骤S52中匹配成功的第t+1帧的目标，若其检测置信度大于阈值λ_det，将产生一个新的轨迹，即赋予目标新的身份号，否则删除该目标；

步骤S43：保存每个匹配成功的第t+1帧的目标的信息。

进一步的，所述目标的信息包括目标的经网络的检测结果，检测置信度和身份号。

本发明与现有技术相比具有以下有益效果：

本发明使用度量学习损失来训练卷积神经网络，以保证卷积神经网络所提取的同一身份的目标特征的相似度大于不同身份目标的特征相似度，从而提高匹配的准确率和跟踪的准确率。

附图说明

图1为本发明实施例的结构框图；

图2为本发明实施例中卷积神经网络训练与测试的流程图；

图3为本发明实施例中卷积神经网络的结构框图；

图4为本发明实施例中训练卷积神经网络的过程图

图5为本发明实施例中训练卷积神经网络目标检测结果和置信度图；

图6为本发明实施例中部分训练集图片及其标签效果图；

图7为本发明实施例中计算特征相似度矩阵的流程图

图8为本发明实施例中匹配流程图；

图9为本发明实施例中最后的输出结果效果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种融合卷积神经网络和特征相似度学习的多目标跟踪方法，包括以下步骤：

步骤S1:获取含有多个目标的视频序列图像和每帧图像对应的标签，将输入图像的大小统一为m×n，其中，m是输入图像的行数，n是输入图像的列后数，分成训练集和测试集；

步骤S2:构建卷积神经网络并预训练；

如图6所示，在本实施例中，输入测试集图片和标签以及训练集图片和标签，其中标签标注了对应图像中目标的身份号，对于同一目标标注的是相同的身份号，而不同的目标所标注身份号亦不同；图中我们选取用于训练的视频序列的第0到5帧，以及每一帧所对应的标签情况。这些标签包括：标签所属的图像帧号；以及每个目标的身份号，注意到，对于同一目标使用相同的身份号，不同的目标身份号亦不相同；目标种类，其中DonCare类型是由于目标在中的尺寸过小，而可以忽略不跟踪的目标；目标边界框表示目标所在图像上的外接的矩形框。边界框的4列中，第一列表示矩形左上角点的在像素坐标系的横坐标，第二列表示矩形左上角点在像素坐标系的纵坐标，第三列表示矩形左下角点在像素坐标系的横坐标，第四列表示矩形左下角在点像素坐标系的纵坐标。

在本实施例中，所述卷积神经网络具体为：

基于Pytorch或TensorFlow训练一个结构为卷积层1-池化层1-卷积层2-池化层2-……-卷积层x-池化层x-全连接层的前向传输的卷积神经网络作为主干网络；

输入层：由于输入的是一个m×n的彩色图像，其在二维空间上的维度是m×n。一个像素点相当于一个神经元，故输入层的维度就是三维[m×n,3]；

卷积层1：若卷积层的尺寸是(2m₁+1)×(2m₁+1)，卷积深度为n₁，设定步长为s₁。(卷积前先将原始输入图像的上下左右m₁以像素0填充)相当于用n₁个(2m₁+1)×(2m₁+1)的滑动窗口以步长s₁与输入图像在该窗口下的像素相卷积，得到的图像大小为[m,n,n₁]；

池化层1：设定池化步长为s₁、池化尺寸为m₂×m₂、池化方式：最大池化或平均池化。若采用最大池化，则以步长s₁在尺寸为m₂×m₂的滑动窗口扫描卷积层1得到的图像像素，存储该窗口下的最大值；若为平均池化，则以步长s₁在尺寸为m₂×m₂的滑动窗口扫描卷积层1得到的图像像素，存储该窗口下的像素平均值；故该池化层池化后得到的图像大小为

优选的，本实施例中采用的学习率为0.001，丢弃率为0.5，训练过程如图4所示。

如图5所示，在本实施例中，所述步骤S23具体包括以下步骤：

步骤S23：将输入的训练集输入到预训练好的卷积神经网络中进行检测出图像中的目标，目标检测置信度和提取出目标对应的特征向量。图中用红色虚线表示被检测到前景目标的边界框，左上角的数值为检测置信度，置信度的值域在0到1之间。

在本实施例中，步骤S3具体为：

优选的，聚焦三元组损失，具体为：

L_tra＝L_aff+L_tri

步骤S34：保存该卷积神经网络的各项权重值；

如图7所示，在本实施例中，步骤S4具体为：

如图8所示，在本实施例中，步骤S5具体包括以下步骤：

步骤S52：对于每个第t+1帧的目标，在目标对A矩阵中含有相似度大于阈值λ_trk的前提下，匹配与其有最大相似度的第t帧的目标，两个被匹配的目标赋予相同的身份号，并作为一条轨迹；设定λ_trk＝0.4。

步骤S43：保存每个匹配成功的第t+1帧的目标的信息。设定λ_det＝0.4。优选的，目标的信息包括目标的经网络的检测结果，检测置信度和身份号。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，包括以下步骤：

步骤S2:构建卷积神经网络并预训练；

步骤S5:根据得到的相似度矩阵，并根据贪心算法实现跨帧匹配目标从而实现多目标跟踪；

所述步骤S3具体为：

步骤S32：将特征向量以视频帧的序号划分，设定表示第t帧中身份号为i的目标的特征向量；

步骤S34：保存该卷积神经网络的各项权重值；

步骤S35：将测试集的图像输入到步骤S34中得到的卷积神经网络，并输出网络最终检测出图像中的目标，目标检测置信度和提取出目标对应的特征向量；

所述聚焦三元组损失L_tra，由亲和度损失L_aff和三元组损失L_tri构成，具体为：

L_tra＝L_aff+L_tri

其中，||·||₂表示欧氏距离方程；D表示第t+1帧的目标ID合集，T表示第t+1帧的目标ID合集，f表示第t时刻跟踪目标i的特征向量；i,j,q分别表示不同的目标的ID。

2.根据权利要求1所述的融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，所述预处理具体为：将输入图像的大小统一为m×n，其中，m是输入图像的行数，n是输入图像的列数。

3.根据权利要求2所述的融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，所述步骤S2具体为：基于Pytorch或TensorFlow训练一个结构为卷积层1-池化层1-卷积层2-池化层2-……-卷积层x-池化层x-全连接层的前向传输的卷积神经网络作为主干网络；

4.根据权利要求1所述的融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，所述步骤S4具体为：

5.根据权利要求1所述的融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，所述步骤S5具体包括以下步骤：

步骤S43：保存每个匹配成功的第t+1帧的目标的信息。

6.根据权利要求1所述的融合卷积神经网络和特征相似度学习的多目标跟踪方法，其特征在于，所述目标的信息包括目标的经网络的检测结果，检测置信度和身份号。