CN112580786A

CN112580786A - 一种用于ReID的神经网络构造方法及其训练方法

Info

Publication number: CN112580786A
Application number: CN202011529184.2A
Authority: CN
Inventors: 华炜; 马也驰; 李融; 谢天
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-30
Anticipated expiration: 2040-12-22
Also published as: CN112580786B

Abstract

本发明公开了一种用于ReID的神经网络构造和训练方法，构造方法包括：S1，构造神经网络DNN1；S2，从DNN1中选取全卷积层FCL_i；S3，构造神经网络DNN2；S4，将选取的FCL_i的输出特征向量图F_i和DNN1的输出连接到DNN2的输入，形成神经网络DNN_final；训练方法包括：S1，构造DNN_final；S2，训练DNN1；S3，构造神经网络DNN3；S4，将DNN_final的输出连接到DNN3形成神经网络DNN_aux；S5，选取多目标跟踪数据集训练DNN_aux，训练过程中不更新DNN1的神经网络参数；S6，训练结束后输出的DNN_final为用于ReID的神经网络。

Description

一种用于ReID的神经网络构造方法及其训练方法

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种用于ReID的神经网络构造和训练方法。

背景技术

随着计算机视觉在人工智能领域的快速发展，在监控以及无人驾驶领域中，尤其是应用在多目标跟踪算法框架的车辆或者行人等目标的ReID算法中变得越来越重要。

现阶段的多目标跟踪算法主要难点在于目标的部分遮挡以及目标的短时间消失，为解决这一问题，ReID算法在多目标跟踪中显得尤为重要。目前较为通用的多目标跟踪算法是将每一次目标检测结果进行位置记录，并重新在原始视频的当前帧进行目标抠取，再送入ReID算法中进行特征提取。其中在原始图像中的多目标抠取、送入ReID算法前的图像预处理以及模型对特征的提取将消耗大量时间，也严重影响了整体多目标跟踪算法的效率。

发明内容

为解决现有技术的不足，实现提高多目标跟踪的效率及灵活性的目的，本发明采用如下的技术方案：

一种用于ReID的神经网络构造方法，包括如下步骤：

S1，构造图像目标检测的神经网络DNN1，满足以下条件：

（a）从输入端开始具备N层全卷积层，记为FCL₁,FCL₂,...,FCL_N；

（b）通过DNN1中的网络层Detection head输出K个将图像目标包含在内的目标矩形框，目标矩形框记为R₁,R₂,...,R_K；

S2，从神经网络DNN1中选取一个全卷积层FCL_i；

S3，构造神经网络DNN2，满足以下条件：

（a）神经网络DNN2的输入为神经网络DNN1的FCL_i层所输出的特征向量图F_i和神经网络DNN1最终输出的目标矩形框R₁,R₂,...,R_K；

（b）神经网络DNN2中设有变换层L_T，将特征向量图F_i中位于目标矩形框R_j内的张量变换到同一维度大小，形成张量FR_j，其中j=1,...,K，并输出张量为FR₁，FR₂，...,FR_K；

（c）变换层L_T后连接一组神经网络层，记为Block，Block的输入为FR₁,FR₂,...,FR_K，Block的输出为K个维度大小相同的向量，记为FV₁,FV₂,...,FV_K，这些向量的维度记为C；

S4，将从神经网络DNN1中选取的全卷积层FCL_i的输出特征向量图F_i和神经网络DNN1的输出目标矩形框R₁,R₂,...,R_K连接到神经网络DNN2的输入，形成用于ReID的神经网络DNN_final。

所述步骤S2选取的全卷积层是全卷积层FCL_N。

所述步骤S3的Block包括卷积、BatchNorm、全连接和平均池化神经网络层。

一种用于ReID的神经网络训练方法，包括如下步骤：

S1，构造神经网络DNN1和神经网络DNN2，并形成神经网络DNN_final，包括如下步骤：

S11，构造图像目标检测的神经网络DNN1，满足以下条件：

（b）能够输出K个将图像目标包含在内的目标矩形框，目标矩形框记为R₁,R₂,...,R_K；

S12，从神经网络DNN1中选取一个全卷积层FCL_i；

S13，构造神经网络DNN2，满足以下条件：

S14，将从神经网络DNN1中选取的全卷积层FCL_i的输出特征向量图F_i和神经网络DNN1的输出目标矩形框R₁,R₂,...,R_K连接到神经网络DNN2的输入，形成用于ReID的神经网络DNN_final。

S2，训练神经网络DNN_final中的神经网络DNN1，当神经网络DNN1的总体损失函数小于设定阈值并且在验证集上的检测mAP大于设定阈值即训练结束；

S3，构造神经网络DNN3，满足以下条件：

（a）神经网络DNN3的输入为C维向量；

（b）神经网络DNN3的输出为M维向量，该向量在每个维度上的取值范围为[0,1]，且所有维度上的数值之和等于1；

S4，将神经网络DNN_final的输出，即K个维度大小相同的向量，合并成1个批次，其中批次大小为K，并将该批次连接到神经网络DNN3，由此，神经网络DNN_final和神经网络DNN3形成神经网络DNN_aux；

S5，选取多目标跟踪数据集训练神经网络DNN_aux，在训练过程中对神经网络DNN_aux中的神经网络DNN1的神经网络参数不进行更新；

S6，训练结束后，将神经网络DNN_aux中的神经网络DNN_final被输出，神经网络DNN_final为用于ReID的神经网络。

所述步骤S3中，该M维向量使用softmax算子进行归一化。

所述步骤S4中，神经网络DNN_final输出的K个维度大小相同的向量，通过Concat算子合并成1个批次，其中批次大小为K，并将该批次作为神经网络DNN3的输入。

通过计算处理将不同尺寸的张量缩放到同一尺寸下，在对神经网络进行训练时，只训练后接入的轻量网络，损失函数拟合较快，有效解决效率及灵活性较低的问题，简单清晰、灵活多变、易于理解、训练方法简洁、拟合速度很快、精度较高、节省资源。同时，ReID部分的模型拟合不影响目标检测模型精度，相对于一些直接端到端的神经网络优势明显。特别针对于多目标跟踪框架中，不但可以保证整体框架的检测精度，还可以大幅度提升帧率。

本发明的优势和有益效果在于：

本发明所构造的神经网络结构简单清晰、灵活多变、易于理解、训练方法简洁、拟合速度很快、精度较高。同时，ReID部分的模型拟合不影响目标检测模型精度，相对于一些直接端到端的神经网络优势明显。特别针对于多目标跟踪框架中，不但可以保证整体框架的检测精度，还可以大幅度提升帧率。

附图说明

图1为本发明中神经网络构造方法的流程图。

图2为本发明中神经网络训练方法的流程图。

图3为本发明中用于ReID的神经网络结构图。

图4为本发明应用于监控场景的多目标跟踪效果图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

一种用于ReID的灵活轻量的神经网络构造和高效率的训练方法，适用于多目标跟踪等算法框架，针对现有多目标跟踪等算法框架中需要用到ReID的算法，解决效率及灵活性较低的问题。

如图1、3所示，构造方法包括如下步骤：

1、构造神经网络CenterNet作为一个用于在图像中进行目标检测的神经网络，其中骨干网络Backbone为DLA-34，即34层的DLA，用于特征提取，将DLA-34与后续连接的用于定位的网络层Detection head一起记作DNN1，该网络满足两个条件：

（1）从输入端开始具备34层全卷积层,记为FCL₁,FCL₂,...,FCL₃₄；

（2）通过DNN1中的网络层Detection head输出K个将图像上目标包含在内的目标矩形框，这些目标矩形框记为R₁,R₂,...,R_K，其中K个目标矩形框是50个目标矩形框通过非极大值抑制以及阈值过滤方法筛选而来，非极大值抑制的IOU阈值设为0.5，阈值过滤方法的分数阈值设为0.3。

2、选取DNN1的Backbone部分中的全卷积层FCL₃₄。

3、构造一个轻量的神经网络DNN2，其满足以下条件：

（1）DNN2的输入为DNN1中的FCL₃₄层所输出的特征向量图F₃₄和DNN1最终所输出目标矩形框R₁,R₂,...,R_K，F₃₄的维度大小为152×152×64；

（2）DNN2中第1层为RoiAlign层，即变换层L_T，该变换层L_T可将特征向量图F₃₄中位于目标矩形框R_j内的张量通过计算处理变换到14×14×64的维度大小，形成张量FR_j，其中j=1,...,K，该变换层L_T输出张量为FR₁,FR₂,...,FR_K；DNN2中RoiAlign层的后面连接包含4个kernel_size为3*3，stride和padding都为1的卷积层，即不会对特征张量FR_j进行下采样，3个BatchNorm、2个全连接层以及1个kernel_size为3*3平均池化层，其中卷积层以及全连接层的激活函数为Relu。

这些层的连接顺序为：

conv1-relu-conv2-batchnorm1-relu-conv3-batchnorm2-relu-conv4-batchnorm3-avepooling1-fc1-fc2

其中conv1、conv2、conv3、conv4为4个卷积层；batchnorm1、batchnorm2、batchnorm3为3个BatchNorm层；avepooling1为平均池化层；fc1、fc2为2个全连接层。

这些层被记为Block，Block的输入为FR₁,FR₂,...,FR_K，由于Block的最后输出层为全连接层，因此Block的输出为K个维度大小相同的向量，记为FV₁,FV₂,...,FV_K，该向量维度大小为256，Block的输出就是DNN2的输出；

4、将从神经网络DNN1中选取出的全卷积层FCL₃₄的输出特征向量图F₃₄和神经网络DNN1的输出目标矩形框R₁,R₂,...,R_K连接到神经网络DNN2的输入，这样形成的神经网络为用于ReID的神经网络DNN_final。

神经网络DNN_final和传统用于ReID的神经网络相比，并不需要重新对图像进行特征提取，可直接利用了之前目标检测网络对图像的特征提取部分，因此DNN_final结构更加简单清晰；

神经网络DNN_final的DNN2部分的Block层可以设计的很轻量就能达到不错的效果，并且灵活选择不一样的神经网络层进行搭配，针对不同场景达到最好的效果。

如图2所示，训练方法包括如下步骤：

1、按上述方法构造神经网络DNN1和神经网络DNN2，并形成神经网络DNN_final；

2、利用传统训练目标检测网络CenterNet的训练方式训练神经网络DNN_final中的神经网络DNN1；当DNN1的总体损失函数小于设定阈值并且模型在验证集上的检测mAP大于设定阈值即为训练结束；

3、选取多目标跟踪数据集MOT17，即为数据集D，其中该数据集包含的总目标数量为19216个；

4、构造一个神经网络DNN3，其中，DNN3的输入为1个256维向量，DNN3的输出为1个19216维向量，并在19216维向量后连接softmax算子进行归一化，因此满足每个维度上的取值范围为[0,1]，且所有维度上的数值之和等于1，即每个当前层向量的每个神经元的输出为预测为当前类别的分数；

5、将神经网络DNNfinal的输出，即K个256维向量，通过Concat算子合并成1个批次，其中批次大小为K，并把该批次连接到神经网络DNN3的输入，通过这种方式，神经网络DNNfinal和神经网络DNN3形成一个神经网络DNNaux，通过这种连接方式可达到训练神经网络DNNfinal的目的，即输入每张样本首先检测该样本中所有目标的位置，并对所有目标进行ID分类；

6、使用数据集D训练神经网络DNNaux，在训练过程中对神经网络DNNaux中的DNNfinal中的DNN1中的神经网络参数不进行更新，这种方式不但可以保证在训练整体ReID网络并不影响原目标检测模型的精度，而且由于DNNfinal中其余神经网络部分的轻量，导致模型拟合速度很快；

7、训练结束后，神经网络DNNaux中的神经网络DNNfinal被输出，即砍掉用于训练的某些神经网络层，因此DNNfinal为被训练完成的可用于ReID的神经网络。

本实施例的方法充分利用目标检测算法对目标特征的提取，并在目标检测神经网络后通过计算处理将不同尺寸的张量缩放到同一尺寸下，并接入轻量的卷积神经网络即可完成对不同目标的ReID。在对神经网络进行训练时，可只训练后接入的轻量网络，损失函数拟合较快。与此同时，由于该方法的高精度、高效率以及高灵活性特别适用于多目标跟踪等算法框架。验表明，在多目标跟踪算法框架中，本实施例方法和传统方法相比，整体精度上升了0.3%，每一帧多目标跟踪的处理时间从原有52ms提升至38ms，效率整体提升了28%。最终效果如图4所示，方框为检测框，左上角的数字为目标ID号。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种用于ReID的神经网络构造方法，其特征在于包括如下步骤：

S1，构造图像目标检测的神经网络DNN1，满足以下条件：

S2，从神经网络DNN1中选取一个全卷积层FCL_i；

S3，构造神经网络DNN2，满足以下条件：

2.如权利要求1所述的一种用于ReID的神经网络构造方法，其特征在于所述步骤S2选取的全卷积层是全卷积层FCL_N。

3.如权利要求1所述的一种用于ReID的神经网络构造方法，其特征在于所述步骤S3的Block包括卷积、BatchNorm、全连接和平均池化神经网络层。

4.一种用于ReID的神经网络训练方法，其特征在于包括如下步骤：

S11，构造图像目标检测的神经网络DNN1，满足以下条件：

S12，从神经网络DNN1中选取一个全卷积层FCL_i；

S13，构造神经网络DNN2，满足以下条件：

S14，将从神经网络DNN1中选取的全卷积层FCL_i的输出特征向量图F_i和神经网络DNN1的输出目标矩形框R₁,R₂,...,R_K连接到神经网络DNN2的输入，形成用于ReID的神经网络DNN_final；

S3，构造神经网络DNN3，满足以下条件：

（a）神经网络DNN3的输入为C维向量；

5.如权利要求4所述的一种用于ReID的神经网络训练方法，其特征在于所述步骤S3中，该M维向量使用softmax算子进行归一化。

6.如权利要求4所述的一种用于ReID的神经网络训练方法，其特征在于所述步骤S4中，神经网络DNN_final输出的K个维度大小相同的向量，通过Concat算子合并成1个批次，其中批次大小为K，并将该批次作为神经网络DNN3的输入。