CN112115879A

CN112115879A - 一种遮挡敏感的自监督行人重识别方法及系统

Info

Publication number: CN112115879A
Application number: CN202010996409.9A
Authority: CN
Inventors: 张兆翔; 宋纯锋; 霍丽娟; 王海滨; 单彩峰
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-22
Anticipated expiration: 2040-09-21
Also published as: CN112115879B

Abstract

本公开提供了一种遮挡敏感的自监督行人重识别方法及系统，所述方案包括：构建完整行人图像数据集，对数据集中的图像进行数据增广操作，并将增广操作后的图像进行裁剪，作为训练集；构建卷积神经网络模型，利用训练集对所述卷积神经网络模型进行训练；将待查询的部分行人图像输入训练好的卷积神经网络模型中，获得特征向量及预测裁剪类型；利用所述预测裁剪类型对待匹配的完整行人图像进行裁剪，并输入训练好的卷积神经网络模型中，获得特征向量；通过计算待查询部分行人图像与待匹配完整行人图像特征向量相似度，实现行人的重识别。

Description

一种遮挡敏感的自监督行人重识别方法及系统

技术领域

本公开属于计算机视觉技术领域，尤其涉及一种遮挡敏感的自监督行人重识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在监控场景下，由于相机角度和遮挡物体的存在，一个完整的行人图片获取成为行人重识别任务上的另一个难题。

发明人发现现有技术中大多是针对完整的行人图片进行行人的重识别，此种方式，在行人遮挡度较高的情况下行人重识别的精度极低，由此产生的不完整的行人图片下的行人重识别问题，由于部分行人与完整行人的对齐存在很大的难点，如何去解决部分行人与完整行人对齐的问题，是现有技术的难点；因此，如何解决给定一个不完整的行人的情况下，实时精确的去检索跨设备下的该行人的完整图像，成为现有技术急需解决的问题。

发明内容

本公开为了解决上述问题，提供一种遮挡敏感的自监督行人重识别方法及系统，有效提高了存在遮挡的行人的重识别精度。

根据本公开实施例的第一个方面，提供了一种遮挡敏感的自监督行人重识别方法，包括：

构建部分行人图像数据集，对数据集中的图像进行数据增广操作，并将增广操作后的图像进行裁剪，作为训练集；

构建卷积神经网络模型，利用训练集对所述卷积神经网络模型进行训练；

将待查询的部分行人图像输入训练好的卷积神经网络模型中，获得特征向量及预测裁剪类型；利用所述预测裁剪类型对待匹配的完整行人图像进行裁剪，并输入训练好的卷积神经网络模型中，获得特征向量；

通过计算待查询部分行人图像与待匹配完整行人图像特征向量相似度，实现行人的重识别。

进一步的，所述卷积神经网络模型包括若干卷积层和全连接层，在预设位置卷积层处设置有注意力模块，所述注意力模块用于帮助网络关注于不同裁剪类型的图片中含有不同部位，靠着关注于图片含有不同身体部位来帮助网络识别裁剪类型。

进一步的，所述卷积神经网络模型的最后一层设置有空间注意力模块，可使最后得到的特征更具有判别力，为后面的分类提供更有效的特征。

进一步的，所述卷积神经网络包括第一全连接层和第二全连接层，所述第一全连接层输出图像的特征向量，所述第二全连接层的输出裁剪类型。

进一步的，所述预设裁剪类型的种类包括：

第一类，选取图片的上半部分，宽度与原始图片一致，长度为原始图片的一半；第二类，选取图片的上面大部分，宽度与原始图片一致，裁剪之后的图片的长度为原始图片的三分之二；第三类，选取图片的下面部分，宽度与原始图片一致，长度为原始图片长度的三分之二；第四类，选取图片的左侧部分，长度与原始图片一致，宽度为原始图片的一半。

进一步的，所述卷积神经网络模型的训练过程需要进行全局损失的计算，进而采用反向传播算法和Adam算法来最小化全局损失，实现模型的训练。

进一步的，所述全局损失L_sum的计算公式如下：

Lsum＝Lid+Lc+Ltriplet

L_triplet＝||F_a-F_p||-||F_a-F_n||+α

其中，L_id表示通过soft-max分类器计算的所述第一全连接层的输出与真实图像ID的偏差,L_c表示通过soft-max分类器计算的所述第二全连接层的输出与真实图像裁剪类型的偏差，L_triplet表示三元组损失，F_a、F_p、F_n分别表示某一类别样本通过网络模型后输出的特征，其中a与p是属于同一类别的样本，它们的裁剪类型标签跟身份标签都相同，a与n是属于不同类别的样本，他们的身份标签不同，裁剪类型相同；其中α表示最小间隔。

根据本公开实施例的第二个方面，提供了一种遮挡敏感的自监督行人重识别系统，包括：

数据获取单元，其用于构建部分行人图像数据集，对数据集中的图像进行数据增广操作，并将增广操作后的图像进行裁剪，作为训练集；

模型构建单元，其用于构建卷积神经网络模型，利用训练集对所述卷积神经网络模型进行训练；

重识别单元，其用于将待查询的部分行人图像输入训练好的卷积神经网络模型中，获得特征向量及预测裁剪类型；利用所述预测裁剪类型对待匹配的完整行人图像进行裁剪，并输入训练好的卷积神经网络模型中，获得特征向量；通过计算待查询部分行人图像与待匹配完整行人图像特征向量相似度，实现行人的重识别。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种遮挡敏感的自监督行人重识别方法。

根据本公开实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种遮挡敏感的自监督行人重识别方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案采用自监督的方法，可以获得每张生成的部分图片的裁剪类型的标签，网络在行人身份标签与裁剪类型标签的监督下进行训练，在获得图片具有判别力特征的同时，网络也具备识别不同的部分行人图片类型的能力，从而使得部分行人图片更好地去匹配完整行人图片。

(2)本公开所述方案有效地解决了在行人遮挡度较高的情况下，利用完整的行人图片进行行人的重识别，导致行人重识别的精度低及计算量大的问题，通过利用裁剪后的图像以及上述的卷积神经网络模型进行行人重识别，有效保证了行人重识别对精确性的要求。

(3)本公开所述的卷积神经网络模型增设了注意力模块和空间注意力模块，通过引入注意力模块去有效提高了卷积神经网络模型对部分行人图片所包含的身体部位的关注度，提高网络识别裁剪类型的准确率，进而提高部分行人图片与完整行人图片间的精确识别。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1(a)是本公开实施例一中所述的行人图片进行的数据增广示意图；

图1(b)是本公开实施例一中所述的裁剪类型示意图；

图2是本公开实施例一中所述的部分行人重识别网络模型示意图；

图3是本公开实施例一中所述的自监督行人重识别算法流程图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一：

本实施例的目的是提供一种遮挡敏感的自监督行人重识别方法。

一种遮挡敏感的自监督行人重识别方法，包括：

进一步的，如图1(a)所示为进行数据增光后的图像，如图1(b)所示，所述图像的裁剪类型有四类，具体裁剪方式如下：

对于一张完整的行人图片，第一种裁剪是：选取图片的上半部分，宽度与原始图片一致，长度为原始图片的一半，但这不是精确的一半像素，我们设置了上下浮动几个像素，比如，原始图片为64*128，第一种裁剪之后的图片为64*(59～69),我们从59～69之间随机选择一个数字；

第二种裁剪类型是：选取图片的上面大部分，宽度与原始图片一致，裁剪之后的图片的长度为原始图片的三分之二，与第一种类似，我们在三分之二处上下浮动五个像素，做随机裁剪；

第三种裁剪类型是：选取图片的下面部分，宽度与原始图片一致，长度为原始图片长度的三分之二，与第一种类似，我们在三分之二处上下浮动五个像素，做随机裁剪；

第四种裁剪类型是：选取图片的左侧部分，长度与原始图片一致，宽度为原始图片的一半，与第一种类似，我们在二分之一处左右浮动五个像素，做随机裁剪。

进一步的，本公开所述方案的基本构思是通过对训练数据的裁剪，生成各种只有部分身体部位的图片，同时加入了一系列的数据增广操作，去减小两个数据集之间存在的鸿沟，此处的数据集一个是用来训练模型的数据集，即大规模的完整的行人图片数据集(Market1501)，另一个是测试的数据集，即部分行人数据集(Partial-REID/Partial-iLDS)；同时，通过引入两个注意力模块去提高卷积神经网络模型对部分行人图片所包含的身体部位的关注度，提高网络识别裁剪类型的准确率，从而更好地实现部分行人图片与完整行人图片之间的匹配精度；将完整的行人图片进行几种特定的裁剪，并记录裁剪类型标签，然后结合注意力模块识别裁剪类型，根据预测的得到的裁剪类型对待搜索完整行人图片库中的完整行人进行相应的裁剪，再与部分行人图片进行相似度计算，所述相似度计算采用欧几里得距离计算，实现行人的重识别。

具体的，首先利用裁剪后得到的部分行人图片，在行人ID标签与裁剪类型标签的监督下，训练一个部分行人重识别卷积神经网络模型，为了监督网络更有效地识别不同的部分行人图片，引入与裁剪类型相关的损失函数来指导网络的训练，在测试阶段，通过对查询的部分图片进行裁剪类型的预测，根据预测的结果与相应的完整行人的裁剪过后的图片进行相似度计算。

进一步的，网络训练的时候，对于每一个输入的行人图片，都会有一个身份序号，同一个人不同图片的身份序号相同，身份序号作为行人身份标签参与训练，例如，训练的数据集中有1501个行人，他们的身份标签由1到1501之间的数字组成；由于网络输入一开始的是完整的行人图片，我们网络训练要求的图片是部分的，所以对每张完整行人图片进行裁剪，有四种类型，我们分别编号为1，2，3，4，每一个编号代表一种裁剪的类型；模型的输入是图像数据+身份标签(ID)+裁剪类型标签。

进一步的，如图3所示，所述方案的详细步骤包括：

步骤S0，将完整行人数据集中的行人图像随机地进行一种数据增广操作；

步骤S1，将S0中变换后得到的完整行人图像随机地裁剪成几种部分行人图像，得到的图片如图1所示；

步骤S2，将S1得到的数据归一化至统一的大小(256×128),每次选取三张行人图片作为一个三元组，记为Ia,Ip,I_n,其中Ia和Ip具有相同的行人标签，Ia和I_n具有不同的行人标签，三元组中图片的裁剪类型都是相同的；将数据送入一个深度卷积神经网络，该网络含有数层卷积层与全连接层，如图2所示；

步骤S3，选取S2中的卷积神经网络的某一中间卷积层的输出特征F1，在其后增加一个BAM作为注意力模块，帮助网络关注于不同类型的部分行人图片中包含不同的身体部位组合；

步骤S4，由S3处理过的特征经过若干层卷积层，输出特征F2；

步骤S5，由S4中输出的特征经过空间注意力模块，输出特征F3；

步骤S6，在S5中得到的特征向量F3连接两个全连接层，一个是与训练集行人ID数大小相同的全连接层，另一个是与裁剪类型种类数相同的全连接层，两个分类器的损失分别记为L_id，L_c，分别通过soft-max分类器计算与真实ID和真实裁剪类型的偏差，第三个损失是S2中三元组损失记为L_triplet＝||F_a-F_p||-||F_a-F_n||+α,其中α为最小间隔，通常设置为0.3；

步骤S7，计算全局损失；

步骤S8，采用反向传播算法和Adam来减小预测整体误差训练该模型，经过多次迭代训练得到最终的行人再识别模型；

步骤S9，首先将查询的部分行人图像并归一化为统一的大小(如256×128)，送入训练好的部分行人再识别模型得到特征向量与预测的裁剪类型；

步骤S10，根据S9预测得到的裁剪类型，去对完整的待匹配图片进行相应的裁剪，得到的部分图片送入训练好的部分行人再识别模型，输出特征向量作为身份特征，与查询的部分图片的身份特征进行相似度计算，根据排序返回查询的结果。

实施例二：

本实施例的目的是提供一种遮挡敏感的自监督行人重识别系统。

一种遮挡敏感的自监督行人重识别系统，包括：

实施例三：

本实施例的目的是提供一种电子设备。

一种电子设备，包括、存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

实施例四：

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤，包括：

上述实施例提供的一种遮挡敏感的自监督行人重识别方法及系统完全可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种遮挡敏感的自监督行人重识别方法，其特征在于，包括：

2.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述卷积神经网络模型包括若干卷积层和全连接层，在预设位置卷积层处设置有注意力模块，所述注意力模块用于帮助网络关注不同类型的部分行人图片中所包含不同的身体部位组合。

3.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述卷积神经网络模型的预设位置卷积层处设置有空间注意力模块，所述空间注意力模块用于使最后得到的特征更具有判别力，为后面的分类提供更有效的特征。

4.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述卷积神经网络包括第一全连接层和第二全连接层，所述第一全连接层输出图像的特征向量，所述第二全连接层的输出裁剪类型。

5.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述裁剪类型的种类包括：第一类，选取图片的上半部分，宽度与原始图片一致，长度为原始图片的一半；第二类，选取图片的上面大部分，宽度与原始图片一致，裁剪之后的图片的长度为原始图片的三分之二；第三类，选取图片的下面部分，宽度与原始图片一致，长度为原始图片长度的三分之二；第四类，选取图片的左侧部分，长度与原始图片一致，宽度为原始图片的一半。

6.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述卷积神经网络模型的训练过程需要进行全局损失的计算，进而采用反向传播算法和Adam算法来最小化全局损失，实现模型的训练。

7.如权利要求1所述的一种遮挡敏感的自监督行人重识别方法，其特征在于，所述全局损失L_sum的计算公式如下：

L_sum＝L_id+L_c+L_triplet

L_triplet＝||F_a-F_p||-||F_a-F_n||+α

8.一种遮挡敏感的自监督行人重识别系统，其特征在于，包括：

数据获取单元，其用于构建完整行人图像数据集，对数据集中的图像进行数据增广操作，并将增广操作后的图像进行裁剪，作为训练集；

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种遮挡敏感的自监督行人重识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种遮挡敏感的自监督行人重识别方法。