CN112966673B

CN112966673B - 一种行人重识别模型的构建方法及行人重识别方法

Info

Publication number: CN112966673B
Application number: CN202110542713.0A
Authority: CN
Inventors: 周金明; 尤晋卿
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-07-23
Anticipated expiration: 2041-05-19
Also published as: CN112966673A

Abstract

本发明公开了一种行人重识别模型的构建方法及行人重识别方法，构建方法包括：步骤1，构建非全连接卷积，对于非全连接卷积，不同的位置将会被不同的卷积核进行卷积运算，计算得到非全连接卷积中卷积核的数目，即被卷积操作的位置数量为N；步骤2，将非全连接卷积和普通卷积通过加权方式结合，形成全局‑局部注意力模块；使用全局‑局部注意力模块替换OSNet中的所有普通卷积，保留OSNet的其余结构不变，形成基于非全连接卷积的行人重识别模型。通过构建非全连接卷积，平衡了在实际场景下的识别精度和运算速度，达到实时检测的要求。

Description

一种行人重识别模型的构建方法及行人重识别方法

技术领域

本发明涉及计算机视觉和行人重识别研究领域，具体涉及一种行人重识别模型的构建方法及行人重识别方法。

背景技术

行人重识别是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术，其核心方式为给定一个监控行人图像，检索跨设备下的该行人图像，作为跨摄像头跟踪的主要方式，一个高效并且实时的行人重识别系统能够为智慧城市的构建从安全性的角度提供切实的保障。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有的行人重识别网络存在着如下问题：参数量较少的模型只能识别较为模糊的图像，如256*128像素精度的图像，对于精度较高的图像，如1280*640的图片，识别性能不佳，原因在于模型参数量较少，无法拟合过于庞大的数据集；参数量较多的模型，虽然可以解决对于高清图像的识别问题，但是随着图像像素的上升，识别时间和训练时间会呈现指数级上升，虽然现在有减枝、知识蒸馏、量化等多种将模型压缩的手段，但是参数量过于庞大的模型大大降低识别的实时性。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种行人重识别模型的构建方法及行人重识别方法，通过构建非全连接卷积，平衡了在实际场景下的识别精度和运算速度，达到实时检测的要求。技术方案如下：

第一方面，提供了一种行人重识别模型的构建方法，包括如下步骤：

步骤1，构建非全连接卷积，对于非全连接卷积，不同的位置将会被不同的卷积核进行卷积运算，所述不同的卷积核表示卷积核大小相同，参数不同，图像经过非全连接卷积后的尺寸和普通卷积相比不发生改变；

设定I代表输入的尺寸，p代表padding操作的大小，f代表卷积核的尺寸，s代表步长，那么根据公式可得到非全连接卷积中卷积核的数目N：

即被卷积操作的位置数量为N；

步骤2，将非全连接卷积和普通卷积通过加权方式结合，形成全局-局部注意力模块；使用全局-局部注意力模块替换OSNet中的所有普通卷积，保留OSNet的其余结构不变，形成基于非全连接卷积的行人重识别模型。

优选的，步骤1中构建非全连接卷积的方法，具体如下：

（1）将输入图片通过Unfold操作，该操作为根据输入的图像尺寸以及卷积核长宽，将输入图片重新整合成对应的大小M*N,M为输入图片的通道数乘Unfold操作的卷积核大小，代表每个将被卷积位置的特征数量，N为被卷积操作的位置数量；

（2）构建一个特定对角线为1的稀疏矩阵，假定上述的输入图片的通道为inC,卷积核的长宽记为W和H，卷积操作的位置数量记作N，初始化一个全零矩阵，其大小为(N,inC*W*H*N)，并将其特定对角线元素设置为1，具体为：记len等于inC*W*H，对于第i行来说，第i*len列到第(i+1)*len列将会被初始化为1；

（3）将第（1）步中获得的M*N大小的矩阵先进行转置操作，得到N*M的矩阵，从行这个维度对N*M的矩阵进行复制和连接的操作，复制和连接次数为非全连接卷积中卷积核的数目N，得到一个拼接矩阵N*（N*M）；

（4）将第（2）步构建的稀疏矩阵和第（3）步中的拼接矩阵做哈德曼积，得到特定对角线元素为相应位置特征的矩阵Z；

（5）构建非全连接卷积核,具体为，构建N个长宽为W*H的张量，并且通过随机初始化的方式初始化这些张量，并将其拼接起来，构建非全连接卷积核；

（6）将所述特定对角线元素为相应位置特征的矩阵Z和非全连接卷积核做矩阵乘法，将矩阵乘法的结果转化成标准输出的相应大小的张量，张量的长宽为非全连接卷积中卷积核的数目N的两个乘子。

优选的，所述步骤2中将非全连接卷积和普通卷积通过加权方式结合，具体为：将普通的卷积操作记为conv，将非全连接卷积记为uconv，两者输出大小相同，将两者的输出通过w和1-w进行加权，其中，w是一个和上述两个卷积输出大小相同、并且通过sigmoid函数将其限制在0-1范围之内的张量。

优选的，步骤2中保留OSNet的其余结构不变，为保留OSNet的多尺度机制不变。

第二方面，提供了一种行人重识别方法，采用所有可能的实现方式中任一项所述的一种行人重识别模型的构建方法构建的行人重识别模型，进行行人特征提取和识别，在行人重识别数据集的构建方面，进行如下优化：

通过使用mask-rcnn的方式，将行人从这些背景中提取出来，并将其背景色统一设置成120-130，得到背景设置成120-130的行人图片；同时，构建特定场景常见背景库，通过随机的方式为行人更换背景，得到更换背景的图片；在对行人重识别模型进行训练时，将原始图片、背景设置成120-130的行人图片、以及更换背景的图片混合，使用triplet loss进行训练，在识别时，将背景设置成120-130的行人图片作为底库进行匹配。

优选的，在行人重识别数据集的构建方面，优化还包括：通过在现有行人ID的行人主体上增加透明深色掩码的方式，人为增加深色衣物行人数据的数量。

优选的，在行人重识别数据集的构建方面，优化还包括：通过使用First ordermodel增加同一行人的不同姿态，First order model通过一张运动中的行人图像去驱动另一张资源图像，达到模仿生成的效果，进而达到模拟多个摄像角度的效果。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过构建非全连接卷积，使用新设计的非全连接卷积构建新的注意力机制，提升模型对于行人细节之处的识别精度，并通过注意力加权的方式将其融入OSNet中，同时兼顾了模型的识别速度和模型的识别精度。平衡了在实际场景下的识别精度和运算速度，完全可以达到实时检测的要求；不需要通过分割图片投入训练的方式，就能提升模型对于行人各个部位的识别精度。

从数据构建方面，分离背景、相似衣物、相似姿态等情况对识别的干扰，能够更精确的匹配，提升行人重识别rank1的识别精度；更加快速地构建大量线上行人重识别数据集。将多样化的同质和异质分块进行结合，从模型和数据两个方面对其进行性能优化，有效提取和分析行人的全局特征和局部特征。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

第一方面，本公开实施例提供了一种行人重识别模型的构建方法，包括如下步骤：

步骤1，构建非全连接卷积，对于非全连接卷积，不同的位置将会被不同的卷积核进行卷积运算，所述不同的卷积核表示卷积核大小相同，参数不同，图像经过非全连接卷积后的尺寸和普通卷积相比不发生改变。

在传统的卷积中，不同的位置将会被相同卷积核进行运卷积算，但是对于非连接卷积，不同的位置将会被不同的卷积核进行卷积运算，但是图像经过非全连接卷积后的尺寸和普通卷积相比不发生改变，这样做的目的是为了让模型通过这种卷积方式，能够更加关注行人各个部分的信息，而不是通过图像分割，来提升模型对行人各个部位的关注。

设定I代表输入的尺寸（即长宽，可不同），p代表padding操作的大小，f代表卷积核的尺寸，s代表步长，那么根据公式：

可以得到非全连接卷积中卷积核的数目为N，即被卷积操作的位置数量为N。

所述构建非全连接卷积的方法，具体如下：

（1）将输入图片通过一个操作，命名为Unfold操作，该操作将根据输入的图像尺寸以及卷积核长宽，将输入图片重新整合成对应的大小M*N,M为输入图片的通道数乘Unfold操作的卷积核大小，代表每个将被卷积位置的特征数量，N为被卷积操作的位置数量。例如，一个长为12宽为10，3通道的RGB图片，假设普通卷积核大小为4*5，那么经过设定参数为4*5的Unfold操作，将得到大小为60*56的输出，其中，60是根据3*4*5获得，即图像通道数乘以Unfold操作参数，代表每个卷积所包含的特征，而56则是通过所述公式计算获得，代表将被卷积操作的位置数量。

（2）之后需要构建一个特定对角线为1的稀疏矩阵，假设上述的输入图片的通道为inC,卷积核的长宽记为W和H，卷积操作的位置数量记作N，初始化一个全零矩阵，其大小为(N, inC * W *H * N)，并将其特定对角线元素设置为1，具体为：记len等于inC * W *H，那么对于第i行来说，第 i * len列到第(i +1) * len列将会被初始化为1。

（3）将第（1）步中获得的M*N大小的矩阵先进行转置操作，得到N*M的矩阵，从行这个维度对N*M的矩阵进行复制和连接的操作，复制和连接次数为非全连接卷积中卷积核的数目N，得到一个拼接矩阵N*（N*M）；在拼接矩阵的计算过程中，暂不考虑通道的数量，在每个通道上拼接矩阵的运算是相同的。

（4）将第（2）步构建的稀疏矩阵和第（3）步中的拼接矩阵做哈德曼积，得到特定对角线元素为相应位置特征的矩阵Z。

（6）将所述特定对角线元素为相应位置特征的矩阵Z和非全连接卷积核做矩阵乘法，这样做的好处是：通过数学变化，构建了一种使得图像相应位置特征（即矩阵Z中非零特征）和非全连接卷积核相应参数运算的方式，通过这种运算，只需要做一次矩阵乘法，相比于循环结构，运算速度大大提高；将矩阵乘法的结果转化成标准输出的相应大小的张量，张量的长宽为非全连接卷积中卷积核的数目N的两个乘子。例如，（1）中的56将会被转化成长为8，宽为7的张量。

步骤2，将非全连接卷积和普通卷积通过加权方式结合，形成全局-局部注意力模块。

这样做的目的是让模型自主选择考虑全局特征还是局部特征，并根据实际的情况调整两者的占比，将普通的卷积操作记为conv，将非全连接卷积记为uconv，两者输出大小相同，将两者的输出通过w和1-w进行加权，其中，w是一个和上述两个卷积输出大小相同、并且通过sigmoid函数将其限制在0-1范围之内的张量。

使用全局-局部注意力模块替换OSNet中的所有普通卷积，保留OSNet的其余结构不变，（优选的，保留OSNet的多尺度机制不变），形成基于非全连接卷积的行人重识别模型。

第二方面，本公开实施例提供了一种行人重识别方法，

采用所有可能的实现方式中任一项所述的一种行人重识别模型的构建方法构建的行人重识别模型，进行行人特征提取和识别，在行人重识别数据集的构建方面，进行如下优化：

（1）在特定场景例如小区场景之下，存在着许多重复的要素，例如广告牌，栏杆，车障等，这些重复要素组成了特征鲜明的背景，这些构成了行人图像的背景部分，如果当前被识别的行人和底库行人图片的背景较为相似，那么对于就存在误识别的可能性，必须降低这种错误匹配的情况。因此，通过使用mask-rcnn的方式，将行人从这些背景中提取出来，并将其背景色统一设置成120-130（可以为127，即255的一半），得到背景设置成120-130的行人图片；同时，构建特定场景常见背景库，通过随机的方式为行人更换背景，得到更换背景的图片；例如，每个行人ID增加10个不同背景，通过此种方式，可以将行人数据扩大10倍。在对行人重识别模型进行训练时，将原始图片、背景设置成120-130（127）的行人图片、以及更换背景的图片混合，使用triplet loss进行训练，在识别时，将背景设置成120-130（127）的行人图片作为底库进行匹配，进一步去除背景的影响。triplet loss的效果在于，可以通过指定图片类别的方式，将同一类内的图片的余弦相似度增大，不同类的图片的余弦相似度减小，通过这种方式，让模型从数据的角度关注于图片中的行人，而不是背景，与此同时，又使得去除背景的图像能够和更改背景的图像保持较高的相似度。

优选的，还包括（2）行人本身身着深色衣物时，由于其衣物特征不明显，很难进行正确匹配，容易引起误识别。通过在现有行人ID的行人主体上增加透明深色掩码的方式，人为增加深色衣物行人数据的数量，对于行人穿着深色衣服的情况，使得模型的注意力从服装颜色的角度转移到服装纹理的角度，提升行人重识别性能。

优选的，还包括（3）由于摄像头数量的限制，绝大多数情况下，只能采集到同一行人单一轨迹的数据，这些数据中的行人姿态变化不大，且角度单一，因此，通过使用Firstorder model增加同一行人的不同姿态，First order model通过一张运动中的行人图像去驱动另一张资源图像，从而达到模仿生成的效果，进而达到模拟多个摄像角度的效果。

First order model通过一张运动中的图像去驱动一张资源图像，由于是自监督，且First order model的机制能够比较好的处理背景信息，所以在背景稳定的情况下，完全不需要去除背景，因此，可以和上述两种方式结合起来使用，大幅增加行人重识别数据集的ID数量以及ID内样本数量。

以上从数据构建方面,将常见小区场景如广告牌/路障/栏杆等融入训练任务，通过行人提取的方式，减少由于行人背景过于相似导致的误识别过程；通过将线上易发生误识别的深色图像，进行数据增强，同时保存衣服的纹理特征，提升模型对于深色服装的适配性问题；对于摄像头较少的场景，所获取的行人图像只能有单一角度，通过使用FirstOrder Model，构建不同角度以及姿态的行人图像，可迅速并且高效地构建相应场景下的行人重识别数据集。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种行人重识别模型的构建方法，其特征在于，包括如下步骤：

即被卷积操作的位置数量为N；

步骤2，将非全连接卷积和普通卷积通过加权方式结合，形成全局-局部注意力模块；使用全局-局部注意力模块替换OSNet中的所有普通卷积，保留OSNet的其余结构不变，形成基于非全连接卷积的行人重识别模型；

步骤1中构建非全连接卷积的方法，具体如下：

2.根据权利要求1所述的一种行人重识别模型的构建方法，其特征在于，所述步骤2中将非全连接卷积和普通卷积通过加权方式结合，具体为：将普通的卷积操作记为conv，将非全连接卷积记为uconv，两者输出大小相同，将两者的输出通过w和1-w进行加权，其中，w是一个和上述两个卷积输出大小相同、并且通过sigmoid函数将其限制在0-1范围之内的张量。

3.根据权利要求1-2任一项所述的一种行人重识别模型的构建方法，其特征在于，步骤2中保留OSNet的其余结构不变，为保留OSNet的多尺度机制不变。

4.一种行人重识别方法，其特征在于，采用权利要求1-3任一项所述的一种行人重识别模型的构建方法构建的行人重识别模型，进行行人特征提取和识别，在行人重识别数据集的构建方面，进行如下优化：

5.根据权利要求4所述的一种行人重识别方法，其特征在于，在行人重识别数据集的构建方面，优化还包括：通过在现有行人ID的行人主体上增加透明深色掩码的方式，人为增加深色衣物行人数据的数量。

6.根据权利要求4-5任一项所述的一种行人重识别方法，其特征在于，在行人重识别数据集的构建方面，优化还包括：通过使用First order model增加同一行人的不同姿态，First order model通过一张运动中的行人图像去驱动另一张资源图像，达到模仿生成的效果，进而达到模拟多个摄像角度的效果。