CN118262385B

CN118262385B - 基于相机差异的调度序列及训练的行人重识别方法

Info

Publication number: CN118262385B
Application number: CN202410683147.9A
Authority: CN
Inventors: 石明; 胡文丽
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2024-05-30
Filing date: 2024-05-30
Publication date: 2024-07-26
Anticipated expiration: 2044-05-30
Also published as: CN118262385A

Abstract

本发明涉及图像检索技术领域，尤其是提供了基于相机差异的调度序列及训练的行人重识别方法。该方法包括根据训练后的特征提取网络，获得每个相机对应的相机特征，并获得线性映射层的输出、每个相机的mAP值和融合相机特征后的mAP值；将未融入相机特征所得到的mAP值作为分子，将融合相机特征后的平均精度mAP值作为分母，得到相机特征调度序列；根据相机特征调度序列由大到小依次选择每个相机的特征权重，将其相机代表的特征进行融合形成最新的特征；如此循环，以至将每个相机的特征全部融合后，对卷积神经网络进行训练，确定预测结果，该方法在面对多相机的场景时，提高了重识别的准确率和稳定性，使其达到了较高的水准。

Description

基于相机差异的调度序列及训练的行人重识别方法

技术领域

本发明涉及图像检索技术领域，尤其涉及一种基于相机差异的调度序列及训练的行人重识别方法。

背景技术

随着人工智能、信息技术的飞速发展，图像检索技术中的行人重识别系统备受关注，通过给定一个人的照片，通过卷积神经网络的学习，最终在一群照片中找到属于同一个人的照片。行人重识别主要包括监督学习和无监督学习两大类方法，其中监督学习是在已经标注好的图片中训练，也就是明确每个图片是哪个人，而无监督学习则是不知道每张图片对应哪个人。

现有的技术中，无监督学习方法通常先经过聚类方法，给每张图片先分配伪标签，然后通过卷积神经网络学习后，根据得到的特征计算损失，然后不断更新标签，往复学习。而监督学习因为知道每个图像的标签，所以一般是直接经过卷积神经网络学习，然后计算损失。由于图像收集并不局限于一个相机，而每个相机拍摄的图像都有着其独特的差异，当所有图像照片一起训练时，由于忽略每个相机之间的差异，最终导致了准确率的降低，无法达到较高的水准。

发明内容

有鉴于此，本发明提供了一种基于相机差异的调度序列及训练的行人重识别方法，在跨相机行人重识别时，用以提高重识别的准确率和稳定性，使其达到较高的水准。

第一方面，本发明提供了一种基于相机差异的调度序列及训练的行人重识别方法，所述方法包括：

步骤1、获取用于行人重识别模型的训练数据集，按照相机的不同进行分组，以获取每个相机对应的训练数据集；

步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中，进行预训练，得到训练后的特征提取网络；

步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取，获得每个相机对应的相机特征，将其表示为；

步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中，进行训练，获得线性映射层的输出和每个相机的平均精度mAP值，将每个相机的mAP值表示为；

步骤5：将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合，获得具有相机特色的特征，并将其分别输入至卷积神经网络进行训练，获得融合相机特征后的平均精度mAP值，并表示为；

步骤6：将步骤4中未融入相机特征所得到的mAP值作为分子，将步骤5中融合相机特征后的平均精度mAP值作为分母，得到每个相机的特征权重，其表示为，即特征权重为，，d表示相机的身份标识；根据每个相机的特征权重，确定相机特征调度序列；

步骤7：通过步骤6中相机特征调度序列，首先将所有相机的图像输入初步的卷积神经网络中得到初步特征，然后根据每个相机的特征权重获取最大的特征权重，将最大的特征权重对应的相机特征与初步特征进行融合，以形成新特征，将此新特征作为下一个网络的输入；如此循环，按照从大到小依次选择每个相机的特征权重，并将其与上一个经过卷积神经网络后得到的特征进行融合，以至将每个相机的特征全部融合后，获得最终特征；将最终特征再次输入到卷积神经网络，得到预测结果。

可选地，所述步骤1包括：

给定输入图像，其中，H、W、C分别表示高、宽、通道数；给定输入相机，其中，，用于表示相机种类的序号数，数据样本大小均为256×128，首先对采集到得数据样本图像进行预处理，生成预处理后的数据样本图像，预处理包括水平翻转、填充、随即裁剪，随后将预处理后的数据样本图像水平分成6个部分。

可选地，所述步骤2包括：

对特征提取网络进行预训练，通过交叉熵损失和三元组损失对特征提取网络进行优化；

其中，交叉熵损失包括：骨干网络提取的特征首先通过线性分类器生成分类概率数值，接着用归一化指数函数softmax进行归一化，计算对数似然损失，其计算公式为：，其中B表示小批量中的图像数量，E表示分类权重，U表示类别数，表示第i个行人的图像，表示第i个行人的特征，和分别表示第i个行人和第j个行人所预测的所有标签；

三元组损失的计算公式为：

；

其中，，，，P表示行人的类别数，K表示同一行人图像的数量，表示一个正负样本对之间距离的超参数，、和分别表示样本、最难的正样本、最难的负样本；其中，最难的正样本指最容易分错的与样本同属于一个人的图像，而最难的负样本指最容易分错的与样本属于不同人的图像。

可选地，所述步骤3包括：

经过预训练后的特征提取网络具备特征提取与分类能力，训练数据集中的图像相机标签已知，按照相机标签进行分组，分别获取每个相机特点对应的特征，每个相机特征表示为，并将每个相机对应的相机特征储存在相机特征存储器中。

可选地，所述步骤4包括：

每个相机对应的训练数据集经过卷积神经网络后，得到分类结果，并根据分类结果计算平均精度mAP值，其中数据样本图像特征映射为向量的形式，并且增加初始化的类别特征，线性映射层的输出为，其中表示全部数据集的类别特征，至均表示局部特征；mAP值用于反应检索的人在数据库中所有正确的图像排在序列表前面的程度；mAP值的计算公式如下：

；

其中，，；R表示行人的身份标识id，M表示身份标识id为i的行人的图像数量；表示在数据库正确率从大到小排序的图像中身份标识id为i的行人，第j个正确的图像加上前面所有的图像的数量；计算得到所有相机的mAP值，将其表示为。

可选地，所述步骤5包括：

将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合，其表达公式为：，，其中，表示相机id为i的类别特征，表示相机 id为i的相机特征，至均表示局部特征；经过卷积神经网络得到融合各个相机特征后的mAP值，表示为。

可选地，所述步骤6包括：

将得到的每个相机的特征权重根据大小进行排序，若的取值小于或等于1，则保留此相机特征，若的取值大于1，则舍去此相机特征；将保留下来的特征权重再次根据从大到小排序，并根据相机种类的序号数得到相机特征调度序列。

可选地，所述步骤7包括：

首先将所有相机的图像输入具有三层的卷积神经网络中，得到初步特征，其中卷积神经网络包含卷积层、批量归一化层以及激活层，卷积层中卷积核大小为3×3，激活层的激活函数为ReLU函数，此时线性映射层的输出为；按照从大到小顺序选择每个相机的特征权重，首先将最大的特征权重对应的相机特征与初步特征进行融合，以形成新特征，融合后的特征映射表示为，其中表示全部数据集的类别特征，表示相机特征，每次注入一个相机特征，至均表示局部特征，将融合后得到的特征作为输入再次经过三层的卷积神经网络，并将经过卷积神经网络后得到的特征与第二大的特征权重对应的相机特征进行融合，再次得到新的融合特征；如此循环，以至将每个相机的特征全部融合后，获得最终特征；将最终特征再次输入到三层的卷积神经网络，经过池化层和全连接层后得到预测结果，其中池化层为全局平均池化，其预测结果用于对跨多个相机的行人重识别身份进行匹配。

本发明提供的技术方案中，该方法包括获取用于行人重识别模型的训练数据集，按照相机的不同进行分组，以获取每个相机对应的训练数据集；将每个相机对应的训练数据集分别输入到特征提取网络中，进行预训练，得到训练后的特征提取网络；通过训练后的特征提取网络对每个相机的特征进行提取，获得每个相机对应的相机特征；将每个相机对应的训练数据集分别输入至卷积神经网络中，进行训练，获得线性映射层的输出和每个相机的平均精度mAP值；将每个相机对应的相机特征与线性映射层的输出进行融合，获得具有相机特色的特征，并将其分别输入至卷积神经网络进行训练，获得融合相机特征后的平均精度mAP值；将未融入相机特征所得到的mAP值作为分子，将融合相机特征后的mAP值作为分母，得到每个相机的特征权重；根据每个相机的特征权重，确定相机特征调度序列；通过相机特征调度序列，首先将所有相机的图像输入初步的卷积神经网络中得到初步特征，然后根据每个相机的特征权重获取最大的特征权重，将最大的特征权重对应的相机特征与初步特征进行融合，以形成新特征，将此新特征作为下一个网络的输入；如此循环，按照从大到小依次选择每个相机的特征权重，并将其与上一个经过卷积神经网络后得到的特征进行融合，以至将每个相机的特征全部融合后，获得最终特征；将最终特征再次输入到卷积神经网络，得到预测结果，该方法在面对多相机的场景时，可以得到各个相机的特征，并且根据该方法确定各个相机特征对于原数据的重要程度，根据相机特征调度序列将相机特征逐渐加入到卷积神经网络层中，使得卷积神经网络学习各个相机的特征，并且根据特征权重从大到小依次学习，可以确保模型在学习过程中优先关注最重要的信息，模型将逐渐适应并充分利用各个相机特征，该方法提高了重识别的准确率和稳定性，使其达到了较高的水准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的行人重识别方法的流程图；

图2为本发明实施例提供的相机特征调度序列的训练流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

图1为本发明实施例提供的行人重识别方法的流程图，如图1所示，该方法包括：

步骤1、获取用于行人重识别模型的训练数据集，按照相机的不同进行分组，以获取每个相机对应的训练数据集。

本发明实施例中，步骤1包括：

本实施例采用的行人重识别数据集是Market-1501数据集，该数据集分别采集自6个摄像头，总共标注1501个行人，每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像，训练集有751人，包含12936张图像，测试集有751人，包含19732张图像。给定输入图像，其中，H、W、C分别表示高、宽、通道数；给定输入相机，其中，，用于表示相机种类的序号数，数据样本大小均为256×128，首先对采集到得数据样本图像进行预处理，生成预处理后的数据样本图像，预处理包括水平翻转、填充、随即裁剪，随后将预处理后的数据样本图像水平分成6个部分。

步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中，进行预训练，得到训练后的特征提取网络。

本发明实施例中，步骤2包括：

对特征提取网络进行预训练，通过交叉熵损失和三元组损失对特征提取网络进行优化，使得特征提取网络具备一定特征提取能力。

三元组损失的计算公式为：

；

步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取，获得每个相机对应的相机特征，将其表示为。

本发明实施例中，步骤3包括：

步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中，进行训练，获得线性映射层的输出和每个相机的平均精度mAP值，将每个相机的mAP值表示为。

本发明实施例中，步骤4包括：

；

步骤5：将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合，获得具有相机特色的特征，并将其分别输入至卷积神经网络进行训练，获得融合相机特征后的平均精度mAP值，并表示为。

本发明实施例中，步骤5包括：

步骤6：将步骤4中未融入相机特征所得到的mAP值作为分子，将步骤5中融合相机特征后的平均精度mAP值作为分母，得到每个相机的特征权重，其表示为，即特征权重为，，d表示相机的身份标识；根据每个相机的特征权重，确定相机特征调度序列。

本发明实施例中，步骤6包括：

本发明实施例中，若的取值小于或等于1，表示融合相机特征后可以提高准确率的特征；若的取值大于1，表示融合相机特征训练的结果比融合前差。

本发明实施例中，如图2所示，步骤7包括：

本发明实施例中，经过验证，经过相机差异调度序列逐步学习相机特征训练的神经网络相比较直接加入相机特征的神经网络在行人重识别任务中效果更加准确。

本发明提供的技术方案中，该方法包括获取用于行人重识别模型的训练数据集，按照相机的不同进行分组，以获取每个相机对应的训练数据集；将每个相机对应的训练数据集分别输入到特征提取网络中，进行预训练，得到训练后的特征提取网络；通过训练后的特征提取网络对每个相机的特征进行提取，获得线性映射层的输出和每个相机对应的相机特征；将每个相机对应的训练数据集分别输入至卷积神经网络中，进行训练，获得每个相机的平均精度mAP值；将每个相机对应的相机特征与线性映射层的输出进行融合，获得具有相机特色的特征，并将其分别输入至卷积神经网络进行训练，获得融合相机特征后的平均精度mAP值；将未融入相机特征所得到的mAP值作为分子，将融合相机特征后的mAP值作为分母，得到每个相机的特征权重；根据每个相机的特征权重，确定相机特征调度序列；通过相机特征调度序列，首先将所有相机的图像输入初步的卷积神经网络中得到初步特征，然后根据每个相机的特征权重获取最大的特征权重，将最大的特征权重对应的相机特征与初步特征进行融合，以形成新特征，将此新特征作为下一个网络的输入；如此循环，按照从大到小依次选择每个相机的特征权重，并将其与上一个经过卷积神经网络后得到的特征进行融合，以至将每个相机的特征全部融合后，获得最终特征；将最终特征再次输入到卷积神经网络，得到预测结果，该方法在面对多相机的场景时，可以得到各个相机的特征，并且根据该方法确定各个相机特征对于原数据的重要程度，根据相机特征调度序列将相机特征逐渐加入到卷积神经网络层中，使得卷积神经网络学习各个相机的特征，并且根据特征权重从大到小依次学习，可以确保模型在学习过程中优先关注最重要的信息，模型将逐渐适应并充分利用各个相机特征，该方法提高了重识别的准确率和稳定性，使其达到了较高的水准。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于相机差异的调度序列及训练的行人重识别方法，其特征在于，所述方法包括：

步骤7：通过步骤6中相机特征调度序列，首先将所有相机的图像输入初步的卷积神经网络中得到初步特征，然后根据每个相机的特征权重获取最大的特征权重，将最大的特征权重对应的相机特征与初步特征进行融合，以形成新特征，将此新特征作为下一个网络的输入；如此循环，按照从大到小依次选择每个相机的特征权重，并将其与上一个经过卷积神经网络后得到的特征进行融合，以至将每个相机的特征全部融合后，获得最终特征；将最终特征再次输入到卷积神经网络，得到预测结果；

所述步骤2包括：

三元组损失的计算公式为：

；

其中，，，，P表示行人的类别数，K表示同一行人图像的数量，表示一个正负样本对之间距离的超参数，、和分别表示样本、最难的正样本、最难的负样本；其中，最难的正样本指最容易分错的与样本同属于一个人的图像，而最难的负样本指最容易分错的与样本属于不同人的图像；

所述步骤4包括：

；

其中，，；R表示行人的身份标识id，M表示身份标识id为i的行人的图像数量；表示在数据库正确率从大到小排序的图像中身份标识id为i的行人，第j个正确的图像加上前面所有的图像的数量；计算得到所有相机的mAP值，将其表示为；

所述步骤6包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤3包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤5包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤7包括：