CN113255615A

CN113255615A - 一种自监督学习的行人检索方法及装置

Info

Publication number: CN113255615A
Application number: CN202110761272.3A
Authority: CN
Inventors: 李军; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-08-13
Anticipated expiration: 2041-07-06
Also published as: CN113255615B

Abstract

本发明公开了一种自监督学习的行人检索方法及装置，该方法包括第一步，构建模型M；使用卷积神经网络模型和Transformer Encoder模型；第二步，对模型M进一步训练；第三步，采集实际应用场景下的视频数据对第二步得到的模型M进行训练；通过设计聚类算法，结合InfoNCE loss损失，形成了自监督学习算法，第四步，模型部署；该方法避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题，提升了行人检索的准确率；降低了行人检索模型的落地成本，提升了模型的鲁棒性。

Description

一种自监督学习的行人检索方法及装置

技术领域

本发明涉及图像识别研究领域，尤其是基于图像的行人检索领域、自监督学习领域和深度学习领域，具体涉及一种自监督学习的行人检索方法及装置。

背景技术

目前主流的行人检索算法是基于深度学习的行人重识别算法，在Market1501、MSMT17等公开数据集上取得了显著的识别效果，在实际应用中也取得了一定的效果。基于深度学习的行人重识别算法，按照有监督学习算法的流程，收集每个行人在不同摄像头下不同姿态的图片，并人工为每个行人赋予唯一的ID。基于有监督学习和深度学习的行人重识别算法，在实际应用中，需要人工在大量视频数据中为每个行人标注出唯一互不重复的ID，非常耗时且难以保证标注的质量，影响实际工业应用中行人重识别模型的落地效果。基于卷积神经网络的行人重识别算法，由于自身结构的限制，仅能提取每个元素对应的感受野区域的特征，不能从全局的视角提取图像的特征，影响了模型最终的识别效果。

发明内容

为了克服现有技术的不足，本发明提供了一种自监督学习的行人检索方法及装置，避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题，提升了行人检索的准确率；降低了行人检索模型的落地成本，提升了模型的鲁棒性。技术方案如下：

本发明提供了一种自监督学习的行人检索方法，该方法包括如下步骤：

第一步，构建模型M；

使用基于ImageNet分类数据集的预训练卷积神经网络模型，去除该预训练卷积神经网络模型的全局池化层和全连接层，额外增加1层卷积层，卷积核尺寸为3×3，步长为1，padding为1,输出通道为512；对该增加的卷积层的输出，增加位置编码，之后输入进Transformer Encoder模型；在Transformer Encoder模型之后增加一层全连接层，将Transformer Encoder模型的第1个输出，输入该增加的全连接层，全连接层的输出维度为1000。

将ImageNet分类数据集中的输入图像，尺寸统一缩放到256×128，经过预训练卷积神经网络的处理之后，尺寸缩小32倍，输出的特征图尺寸为8×4，通道数量为512；将该512×8×4的特征图按照后面两个维度，按照从上到下、从左到右的顺序拉伸成2维的512×32特征图，即有32个512维的向量，对于此32个向量，每个向量增加1个512维的位置编码向量。

对构建模型M的参数进行初始化：使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化，使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化，在ImageNet数据集上，根据损失函数和优化算法训练模型，直至模型收敛。

第二步，对模型M进一步训练；

对于在ImageNet分类数据集上训练出的模型M，收集带有标注信息的行人重识别公开数据集作为训练集，去除模型M的最后一层全连接层，使用Triplet Loss损失和SGD优化算法，训练模型，直至模型收敛。

第三步，采集实际应用场景下的视频数据对第二步得到的模型M进行训练；

实际应用场景下的视频数据包含不同摄像头、不同时间段的视频，使用行人检测模型从视频图像中检测出每个行人的位置，并提取出对应的行人区域图像，统一缩放到256×128的尺寸。

使用第二步中训练出的模型M，对每张256×128的行人区域图像提取特征，即Transformer Encoder模型的第1个输出，特征维度为512，提取结束之后，对每个特征采用归并集算法进行聚类，聚类算法为：设定相似度阈值，将同一行人不同姿态的图片聚集到一起形成一个集合，对每个集合，设定数量阈值n，对于集合数量大于n的类别，通过提高相似度阈值的方法，对该集合使用归并集算法再次聚类，如此迭代，直至最终每个集合的元素数量低于设定的阈值，最终根据聚类得到N个集合。

对于聚类出的每个集合，按照顺序赋予一个伪标签，伪标签的取值为[0, N)，集合中的每个元素的ID标签即为该集合的标签，这样，数据集中的每个元素均被赋予了1个标签，对于每个集合，计算该集合中所有元素的特征的平均值，以该平均值为该集合的中心特征。

训练模型，使用InfoNCE loss计算损失，

使用SGD优化算法训练模型，在每一轮训练结束后，保留上一轮中的中心特征，将其作为一个新的特征数据，加入到本轮提取出的特征数据集中，再按照聚类算法进行重新聚类，聚类结束后，再重新给每个数据元素赋予一个伪标签，使用InfoNCE loss损失计算方法和SGD优化算法，进行模型的迭代训练，直至模型收敛。

第四步，模型部署；

对需要检索的人员创建底库图片，使用第三步训练出的模型提取特征，并对特征进行归一化，之后进行存储；对每张待查询的图片，使用第三步训练出的模型提取特征，对特征进行归一化，计算该待查询图片的特征与所有底库图片的特征的相似度，选取出相似度最高的底库图片，若最高相似度同时大于预先设定的相似度匹配阈值，则判断该查询图片中的行人属于该底库图片中对应的目标人员。

优选的，第一步所述预训练卷积神经网络模型使用ResNet50模型。

优选的，第一步中每个向量增加1个512维的位置编码向量，其位置编码函数定义为：

其中t代表32个位置的序号，t∈[0,32)，i代表维度编号，i∈[0, 512)，k的取值范围为[0, 256)，d为常数512。

优选的，第一步中所述损失函数采用交叉熵损失和所述优化算法采用SGD优化算法。

优选的，第二步中收集带有标注信息的行人重识别公开数据集作为训练集，其包括Market1501、CUHK03和DUKEMTMC-ReID等数据集。

优选的，第三步中对每个集合，设定数量阈值n，具体为：结合实际场景数据采集的先验信息，做数量上的限制，设定数量阈值n。

优选的，第三步中对于集合数量低于m的集合，m＜n/3，在第三步模型训练时候，忽略该集合，即N个集合中不包含该忽略的集合。

优选的，第三步中使用InfoNCE loss计算损失，计算公式为：

其中q代表训练的某个元素，c⁺代表该元素所属的集合的中心特征，c_i代表了所有集合中的中心特征，τ的取值根据实际训练情况进行设置。

优选的，第四步中所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过结合卷积神经网络和transformer，将卷积神经网络的输出作为transformer的输入的手段，能够从图像全局的视角提取特征，也能够关注到图像的局部重要信息，也避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题。结合卷积神经网络对图像局部连续区域提取的特性和transformer对图像全局、重点细节区域特征提取的特性，提升了行人检索的准确率。通过设计聚类算法，结合InfoNCE loss损失，形成了自监督学习算法，避免了对视频数据进行人工标注这个非常耗时的工作，降低了行人检索模型的落地成本。同时模型训练过程中采用聚类算法以及迭代的方式，提升了模型的鲁棒性。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“第一步”、“第二步”、“第三步”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种自监督学习的行人检索方法，该方法包括如下步骤：

第一步，构建模型M；

使用基于ImageNet分类数据集的预训练卷积神经网络模型（优选的，所述预训练卷积神经网络模型使用ResNet50模型），去除该预训练卷积神经网络模型的全局池化层和全连接层，额外增加1层卷积层，卷积核尺寸为3×3，步长为1，padding为1,输出通道为512；对该增加的卷积层的输出，增加位置编码，之后输入进Transformer Encoder模型；在Transformer Encoder模型之后增加一层全连接层，将Transformer Encoder模型的第1个输出，输入该增加的全连接层，全连接层的输出维度为1000；全连接层用于预测图像最终的类别概率分布。

将ImageNet分类数据集中的输入图像，尺寸统一缩放到256×128，经过预训练卷积神经网络的处理之后，尺寸缩小32倍，输出的特征图尺寸为8×4，通道数量为512；将该512×8×4的特征图按照后面两个维度（即8×4的维度），按照从上到下、从左到右的顺序拉伸成2维的512×32特征图，即有32个512维的向量，对于此32个向量，每个向量增加1个512维的位置编码向量。

通过结合卷积神经网络和transformer，将卷积神经网络的输出作为transformer的输入的手段，能够从图像全局的视角提取特征，也能够关注到图像的局部重要信息，也避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题。

对构建模型M的参数进行初始化：使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化，使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化，在ImageNet数据集上，根据损失函数和优化算法（优选的，损失函数采用交叉熵损失和优化算法采用SGD优化算法）训练模型，直至模型收敛。

第二步，对模型M进一步训练；

对于在ImageNet分类数据集上训练出的模型M，收集带有标注信息的行人重识别公开数据集作为训练集（优选的，收集带有标注信息的行人重识别公开数据集作为训练集，其包括Market1501、CUHK03和DUKEMTMC-ReID等数据集），去除模型M的最后一层全连接层，使用Triplet Loss损失和SGD优化算法，训练模型，直至模型收敛。

实际应用场景下的视频数据包含不同摄像头、不同时间段的视频，使用行人检测模型从视频图像中检测出每个行人的位置，并提取出对应的行人区域图像，统一缩放到256×128的尺寸；此步骤不需要对不同行人的图片进行人工标注。

使用第二步中训练出的模型M，对每张256×128的行人区域图像提取特征，即Transformer Encoder模型的第1个输出，特征维度为512，提取结束之后，对每个特征采用归并集算法进行聚类，聚类算法为：设定相似度阈值，将同一行人不同姿态的图片聚集到一起形成一个集合；（优选的，设定的相似度阈值为0.8），对每个集合，设定数量阈值n（优选的，对每个集合，设定数量阈值n，具体为：结合实际场景数据采集的先验信息，做数量上的限制，设定数量阈值n，比如，数量阈值n为20。）对于集合数量大于n的类别，通过提高相似度阈值的方法，对该集合使用归并集算法再次聚类，如此迭代，直至最终每个集合的元素数量低于设定的阈值，最终根据聚类得到N个集合。优选的，对于集合数量低于m的集合，m＜n/3，在第三步模型训练时候，忽略该集合，即N个集合中不包含该忽略的集合。

训练模型，使用InfoNCE loss计算损失，

优选的，使用InfoNCE loss计算损失，计算公式为：

其中q代表训练的某个元素，c⁺代表该元素所属的集合的中心特征，c_i代表了所有集合中的中心特征，τ的取值根据实际训练情况进行设置（优选的，τ设置为0.5）。

通过设计聚类算法，结合InfoNCE loss损失，形成了自监督学习算法，避免了对视频数据进行人工标注这个非常耗时的工作，降低了行人检索模型的落地成本。

第四步，模型部署；

优选的，所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离，进一步的，相似度匹配阈值设置为0.7。

第二方面，本公开实施例提供了一种自监督学习的行人检索装置；

基于相同的技术构思，该装置能够实现或执行所有可能的实现方式中任一项所述的一种自监督学习的行人检索方法。

说明的是，上述实施例提供的一种自监督学习的行人检索装置在执行一种自监督学习的行人检索方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外上述实施例提供的一种自监督学习的行人检索装置与一种自监督学习的行人检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种自监督学习的行人检索方法，其特性在于，该方法包括如下步骤：

第一步，构建模型M；

使用基于ImageNet分类数据集的预训练卷积神经网络模型，去除该预训练卷积神经网络模型的全局池化层和全连接层，额外增加1层卷积层，卷积核尺寸为3×3，步长为1，padding为1,输出通道为512；对该增加的卷积层的输出，增加位置编码，之后输入进Transformer Encoder模型；在Transformer Encoder模型之后增加一层全连接层，将Transformer Encoder模型的第1个输出，输入该增加的全连接层，全连接层的输出维度为1000；

将ImageNet分类数据集中的输入图像，尺寸统一缩放到256×128，经过预训练卷积神经网络的处理之后，尺寸缩小32倍，输出的特征图尺寸为8×4，通道数量为512；将该512×8×4的特征图按照后面两个维度，按照从上到下、从左到右的顺序拉伸成2维的512×32特征图，即有32个512维的向量，对于此32个向量，每个向量增加1个512维的位置编码向量；

对构建模型M的参数进行初始化：使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化，使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化，在ImageNet数据集上，根据损失函数和优化算法训练模型，直至模型收敛；

第二步，对模型M进一步训练；

对于在ImageNet分类数据集上训练出的模型M，收集带有标注信息的行人重识别公开数据集作为训练集，去除模型M的最后一层全连接层，使用Triplet Loss损失和SGD优化算法，训练模型，直至模型收敛；

实际应用场景下的视频数据包含不同摄像头、不同时间段的视频，使用行人检测模型从视频图像中检测出每个行人的位置，并提取出对应的行人区域图像，统一缩放到256×128的尺寸；

使用第二步中训练出的模型M，对每张256×128的行人区域图像提取特征，即Transformer Encoder模型的第1个输出，特征维度为512，提取结束之后，对每个特征采用归并集算法进行聚类，聚类算法为：设定相似度阈值，将同一行人不同姿态的图片聚集到一起形成一个集合，对每个集合，设定数量阈值n，对于集合数量大于n的类别，通过提高相似度阈值的方法，对该集合使用归并集算法再次聚类，如此迭代，直至最终每个集合的元素数量低于设定的阈值，最终根据聚类得到N个集合；

对于聚类出的每个集合，按照顺序赋予一个伪标签，伪标签的取值为[0, N)，集合中的每个元素的ID标签即为该集合的标签，这样，数据集中的每个元素均被赋予了1个标签，对于每个集合，计算该集合中所有元素的特征的平均值，以该平均值为该集合的中心特征；

训练模型，使用InfoNCE loss计算损失，

使用SGD优化算法训练模型，在每一轮训练结束后，保留上一轮中的中心特征，将其作为一个新的特征数据，加入到本轮提取出的特征数据集中，再按照聚类算法进行重新聚类，聚类结束后，再重新给每个数据元素赋予一个伪标签，使用InfoNCE loss损失计算方法和SGD优化算法，进行模型的迭代训练，直至模型收敛；

第四步，模型部署；

2.根据权利要求1所述的一种自监督学习的行人检索方法，其特性在于，第一步所述预训练卷积神经网络模型使用ResNet50模型。

3.根据权利要求1所述的一种自监督学习的行人检索方法，其特性在于，第一步中每个向量增加1个512维的位置编码向量，其位置编码函数定义为：

4.根据权利要求1所述的一种自监督学习的行人检索方法，其特性在于，第一步中所述损失函数采用交叉熵损失和所述优化算法采用SGD优化算法。

5.根据权利要求1所述的一种自监督学习的行人检索方法，其特性在于，第二步中收集带有标注信息的行人重识别公开数据集作为训练集，其包括Market1501、CUHK03和DUKEMTMC-ReID数据集。

6.根据权利要求1所述的一种自监督学习的行人检索方法，其特性在于，第三步中对每个集合，设定数量阈值n，具体为：结合实际场景数据采集的先验信息，做数量上的限制，设定数量阈值n。

7.根据权利要求1-6任一项所述的一种自监督学习的行人检索方法，其特性在于，第三步中对于集合数量低于m的集合，m＜n/3，在第三步模型训练时候，忽略该集合，即N个集合中不包含该忽略的集合。

8.根据权利要求7所述的一种自监督学习的行人检索方法，其特性在于，第三步中使用InfoNCE loss计算损失，计算公式为：

9.根据权利要求1-6或8任一项所述的一种自监督学习的行人检索方法，其特性在于，第四步中所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离。

10.一种自监督学习的行人检索装置，其特征在于，该装置能够实现权利要求1-9任一项所述的一种自监督学习的行人检索方法。