CN111414815B

CN111414815B - 行人重识别网络搜索方法及行人重识别方法

Info

Publication number: CN111414815B
Application number: CN202010144613.8A
Authority: CN
Inventors: 李秀; 段桂春
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-11-14
Anticipated expiration: 2040-03-04
Also published as: CN111414815A

Abstract

本申请公开一种行人重识别网络搜索方法及行人重识别方法。所述行人重识别网络搜索方法包括：采用下采样单元和普通单元形成级联结构；两个所述下采样单元之间设有所述普通单元；所述级联结构的前面设有卷积层，所述级联结构的后面依次设有全局平均池化层和全连接层，从而形成网络搜索结构；使用所述网络搜索结构搜索行人重识别网络。所述行人重识别方法包括：使用前半部分网络和后半部分网络；所述前半部分网络是根据所述行人重识别网络搜索方法得到的行人重识别网络；所述前半部分网络用于对行人图片进行处理，得到特征图并将所述特征图输入至所述后半部分网络。本申请可提高行人重识别任务中的识别准确率并可降低模型计算复杂度。

Description

行人重识别网络搜索方法及行人重识别方法

技术领域

本申请涉及行人重识别技术领域，特别涉及一种行人重识别网络搜索方法及行人重识别方法。

背景技术

行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，是一个图像检索的子问题。行人重识别可以理解为跨境追踪，比如摄像头捕获了一个犯罪分子在A地区的图像，这个人跑到B地区后，我们可以检索跨设备下的该行人图像。常见的行人重识别采用人工设计的分类网络实现。

目前可以自动提取图像特征的神经网络大多依赖于人工设计，性能取决于设计的结够构且依赖经验，例如残差网络和密集卷积神经网络等。

当前的很多行人重识别技术把专家设计的分类网络作为骨干网络，整体结构的前半部分是预训练好的深度为50层的残差网络，后半部分再对残差网络输出的特征进行后处理，来提高检索的精度。但是，手工设计网络一个耗费时间和精力的过程，而且严重依赖经验。

以上背景技术内容的公开仅用于辅助理解本申请的发明构思及技术方案，其并不必然属于本申请的现有技术，在没有明确的证据表明上述内容在本申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本申请提出一种行人重识别网络搜索方法及行人重识别方法，可提高行人重识别任务中的识别准确率并可降低模型计算复杂度，是一种可减少显存占用的模型优化方法，可实现行人重识别模型设计的自动化。

在第一方面，本申请提供一种行人重识别网络搜索方法，包括：

采用下采样单元和普通单元形成级联结构；两个所述下采样单元之间设有所述普通单元；

所述级联结构的前面设有卷积层，所述级联结构的后面依次设有全局平均池化层和全连接层，从而形成网络搜索结构；

使用所述网络搜索结构搜索行人重识别网络。

在一些优选的实施方式中，所述下采样单元的数量为四个。

在一些优选的实施方式中，通过跳远连接将前两个单元输出的特征图作为下一个单元的输入。

在一些优选的实施方式中，评估阶段的剪枝保留权重最大的前两个支路。

在一些优选的实施方式中，特征图通过卷积网络计算得到权重向量；根据所述权重向量中元素的排序抽取特征图进行处理，并将得到的结果和剩下的特征图拼接在一起，作为当前单元的输出。

在第二方面，本申请提供一种行人重识别方法，包括：

使用两部分网络，分别为前半部分网络和后半部分网络；所述前半部分网络是根据前述方法得到的行人重识别网络；

所述前半部分网络用于对行人图片进行处理，得到特征图并将所述特征图输入至所述后半部分网络；

所述后半部分网络为多分支网络，包括全局分支、第一局部分支和第二局部分支；所述全局分支用于提取全局特征；所述第一局部分支用于提取中粒度的特征；所述第二局部分支用于提取细粒度的特征。

在一些优选的实施方式中，所述全局特征由三个约束条件来约束。

在一些优选的实施方式中，所述中粒度的特征由两个分类损失来约束；所述细粒度的特征由三个分类损失来约束。

在第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行上述方法。

与现有技术相比，本申请实施例的有益效果有：

在两个下采样单元之间设置普通单元，形成级联结构；在级联结构的前面设置卷积层，在级联结构的后面依次设置全局平均池化层和全连接层，形成网络搜索结构。用网络结构搜索的方法找出合适的网络，可以根据不同的数据集搜索出适应当前数据分布的结构，具有较好的灵活性。

在优选的实施方式中，本申请实施例还具有如下有益效果：

为了在有限的计算资源下获得性能较好的模型，本申请实施例在行人检索任务中引入通道采样机制，选出一部分特征图计算，再与剩下的特征图合并，可减少计算量并加速搜索。

在搜索出的结构里融入多粒度信息，进行端到端的训练，从整体到局部都有相应的约束条件，让计算机像人一样，既能关注整体也即全身特征，也能关注局部信息也即细节信息，可解决行人检索中的遮挡问题。

附图说明

图1为本申请一个实施例的行人重识别网络搜索方法的流程示意图；

图2示出本申请一个实施例的单输入的网络搜索结构；

图3示出本申请一个实施例的网络单元的组成；

图4示出本申请一个实施例的双输入的网络搜索结构；

图5示出本申请一个实施例的双输入的网络搜索结构的网络单元组合方式；

图6示出本申请一个实施例的通道采样机制的原理；

图7示出本申请一个实施例的多粒度特征的融合的原理。

具体实施方式

为了使本申请实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合图1至图7及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本实施例提供一种行人重识别网络搜索方法以及一种行人重识别方法。

参考图1和图2，本实施例的行人重识别网络搜索方法采用两种网络单元，分别是采样单元和普通单元。下采样单元用于让特征图的通道数加倍，大小减半。普通单元不会改变特征图的通道和大小，但可以增加网络的表达能力。

两种网络单元堆叠，具体是采用多个下采样单元和多个普通单元形成级联结构。两个下采样单元之间设有一个或多个普通单元。

级联结构的前面设有卷积层，用于对输入的行人图片进行卷积。级联结构的后面依次设有全局平均池化层和全连接层，也即连接全局平均池化层和全连接层，用于分类。

本实施例的行人重识别网络搜索方法可分为：基于单输入的网络搜索结构的行人重识别网络搜索方法；基于双输入的网络搜索结构的行人重识别网络搜索方法。

参考图2，对于基于单输入的网络搜索结构的行人重识别网络搜索方法，具体流程为：输入的行人图片大小为256×128，经过3×3的卷积，得到一组特征图，该特征图输入至下采样单元，通道数增加为64，大小变为128×64；接着进入普通单元，通道数和大小不变；然后再进入下采样单元，通道数和特征图大小分别为128和64×32，……，最终输出的特征图的维度是512维也即通道数为512；后面再连接全局平均池化层和全连接层，用于分类。在整个过程中，仅需搜索两种网络单元(下采样单元和普通单元)。将其复制四份，得到四个下采样单元和四个普通单元，从而得到具有八个网络单元的网络。

参考图4，对于基于双输入的网络搜索结构的行人重识别网络搜索方法，双输入的结构在网络单元之间增加了跳远连接，使得前两个网络单元输出的特征图相加作为下一个网络单元的输入，评估阶段的剪枝保留权重最大的前两个支路，这样能提取到相应的特征，而且计算量适中。双输入的网络搜索结构的特征图大小变化方式和单输入的网络结构一样；遇到下采样单元特征图缩小为原来的一半，通道则加倍；遇到普通单元则特征图保持不变。

参考图4和图5，在行人重识别任务中，下采样16倍得到的效果较好，所以下采样单元重复四次，每次特征图减半，也即下采样单元的数量为四个；普通单元可以根据实际情况调整，例如，普通单元的组合方式可以为[1,1,1,1]、[2,2,2,2]或[3,4,6,3]等。

如此，可得到用于进行搜索的网络搜索结构。基于输入的行人图片，使用网络搜索结构可搜索得到想要的行人重识别网络。

参考图3和表一，每个网络单元由六个节点构成，S代表上一个网络单元的特征图；0、1、2和3代表中间节点，输出的特征图通过通道拼接得到该网络单元的特征图。下采样单元的步长为2。普通单元的步长为1。在进行网络架构搜索时，每个网络单元的特征图之间的连接有8种可选操作(也即有8种可能性的候选搜索空间)，分别为：3×3的深度分离卷积、3×3的空洞卷积、5×5的深度分离卷积、5×5的空洞卷积、3×3的平均池化、3×3的最大池化、无连接、跳远连接。

表一图3中图标的含义

网络架构搜索技术主要有三个方向：强化学习、进化算法和基于梯度优化的方法。大部分网络架构搜索方法的流程都是先定义搜索空间，然后根据搜索策略找出多个候选网络结构，对它们评估，根据反馈(如：准确率)进行下一轮的搜索。

基于进化学习的算法。早期的进化算法会把学习率也加入搜索空间，初始化一个浅层的结构，如此，在进化的过程中，网络结构逐渐变复杂。该方法会对网络结构进行编码，网络结构组成的集合称为种群；训练时从种群中选出结构，优胜劣汰，最终留下性能好的网络。在进化过程中会有遗传和变异。AmoebaNet(Real E,Aggarwal A,Huang Y,etal.Regularized Evolution for Image Classifier Architecture Search[J].2018.)是经典的网络搜索进化算法，搜索耗时3150GPU days。进化算法的搜索空间是离散的。

强化学习用循环神经网络作为控制器，预测候选操作的概率，如卷积核高度是1、3、5或7的概率；该结构作为子网络训练，得到的准确率作为反馈进行下一次的循环。经典的强化学习算法NASNet(BarretZoph,Vijay Vasudevan,Jonathon Shlens,and Quoc VLe.Learning transferable architectures for scalable image recognition.CVPR,2018)搜索耗时2000GPU days。强化学习的方法在离散的搜索空间中搜索，可以把速度、内存等作为反馈。

基于梯度优化的方法把离散的搜索空间转为连续，利用注意力的机制，选出权重大的边作为当前结构，通过可微的方法求解。基于梯度的方法搜索速度较快。

本实施例采用基于梯度优化的方法，基于输入的行人图片，使用网络搜索结构搜索得到想要的行人重识别网络。

本实施例在行人重识别任务上设计了单输入和双输入的网络架构搜索方法。在算法落地时，不同的硬件对模型有不同的要求，可以针对特定的场景搜索出合适的结构。如果硬件不支持深度分离卷积，需要把深度分离卷积替换成普通卷积，这时用单输入的网络架构搜索较简单，也可以用双输入的方式搜索，但要把网络层数变浅。如果硬件支持深度分离卷积，可根据硬件能容纳的模型大小来搜索：较小型的计算设备比如手机端，可以搜索小一点的模型，如3M或5M；较大型的计算设备比如电脑端，可以搜索大模型，如10M或20M。

当前的网络架构搜索方法大多是针对分类任务，但行人检索的难度要比分类大，比如：在分类任务里，桌子和椅子很容易区分，而行人检索要关注行人的衣服颜色和头发等特征。数据集不同，任务不同，结构也应该有差异。本实施例针对行人重识别任务，提供仅有四次下采样单元的搜索结构，为了满足不同硬件对模型大小和运行速率的要求，本实施例从单输入和双输入的搜索方式出发，可提供能应用不同平台的模型。

当网络较大，图片数据也很大时，很耗显存。行人图片的大小一般设置为256×128或384×128，当网络较大时，基于梯度优化的方法很耗显存，训练过程中需要存储大量的特征图和梯度信息，所以批处理的数量会设置得很小。参考图6，为了增大批处理数量，加速训练，本实施例引入通道采样机制：特征图通过卷积网络计算得到权重向量，权重越大，代表该特征图越重要；根据权重向量中元素的排序抽取特征图，进行处理比如进行卷积、池化和跳远连接等操作，将得到的结果和剩下的特征图拼接在一起，作为当前网络单元的输出。

根据上述可知，在搜索过程中采用通道采样机制，选出权重大的特征图进行卷积和池化等操作，输出的结果再与剩下的特征图拼接在一起，可减少计算量以及可节省显存。

行人检索任务存在严重的遮挡问题，为了在检索的场景下达到较好的兼容效果，本实施例在搜索出的网络结构里融合多粒度特征。参考图7，本实施例的行人重识别方法使用的网络结构分为两部分，分别为前半部分网络和后半部分网络。前半部分网络是根据本实施例的行人重识别网络搜索方法得到的行人重识别网络，具体是用梯度优化的方法搜索出来的网络结构。

参考图7，前半部分网络作为整个流程的骨干网络，由图像也即行人图片经过四次下采样得到大小是16×8、通道数是512维的特征图，然后该特征图输入至后半部分网络。其中，后半部分网络为多分支网络。参考图7，后半部分的多分支网络提取局部特征的方式是水平切条，通过空间特征的分部来定位，如第一个中粒度局部特征学习的是上身的信息，第二个中粒度局部特征学习的是下身的信息。在检索应用时，如果第一个摄像头中因为遮挡问题只拍摄到上身，第二个摄像头拍到下身，第三个摄像头只拍摄到头肩部分，其他摄像头拍摄到完整的身体，则可以通过拍摄到的上身图片检索出只有下身、只有身体的一部分或完整身体的图片，可提高被遮挡图片检索的准确率。

后半部分网络包括全局分支、第一局部分支(也即局部分支1)和第二局部分支(也即局部分支2)。

全局分支关注的是完整的行人信息，提取的全局特征对应的通道、高度和宽度分别为512、16和8。全局特征有三个约束条件，分别是分类损失、三元组损失和中心损失；分类损失用于鉴别身份；三元组损失用于拉近同类的距离同时拉远不同类别的距离；中心损失用于让同类别的特征聚集成一个点。

第一局部分支用于提取中粒度的特征(如上身或下身)，特征图被水平切成两组512×8×8的特征，由两个分类损失来约束。

第二局部分支用于提取细粒度的特征，关注的区域更小，如帽子、鞋子和书包等。特征图被水平切分成三组512×4×8的特征，由三个分类损失来约束。

行人重识别任务存在较严重的遮挡问题，这也是网络搜索过程中容易忽视的一点。本实施例引入多粒度信息，既关注整体，又关注细节比如帽子、书包和鞋子等，能通过局部搜全身，又能通过局部搜局部(如上身搜索下身)，可提高行人检索的通用性。

根据上述可知，本实施例通过先搜索出一个网络结构作为骨干网络提取全局特征，再基于搜索出来的模型结合多粒度信息开展行人重识别，可提高行人重识别任务中的识别准确率，并可降低模型计算复杂度以及减少显存占用，可实现行人重识别模型设计的自动化。

本领域的技术人员可以理解实施例方法中的全部或部分流程可以由计算机程序来命令相关的硬件完成，程序可存储于计算机可读取存储介质中，程序在执行时，可包括如各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上内容是结合具体/优选的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本申请的保护范围。

Claims

1.一种行人重识别网络搜索方法，其特征在于，包括：

网络单元包括下采样单元和普通单元，下采样单元使特征图的通道数加倍、大小减半，普通单元用于增加网络的表达能力；采用下采样单元和普通单元形成级联结构；两个所述下采样单元之间设有所述普通单元；

所述级联结构的前面设有卷积层，所述级联结构的后面依次设有全局平均池化层和全连接层，从而形成网络搜索结构；所述网络搜索结构可分为单输入的网络搜索结构和双输入的网络搜索结构；

使用所述网络搜索结构搜索行人重识别网络，以使所述网络搜索方法能够根据不同的数据集搜索出适应当前数据分布的网络搜索结构。

2.根据权利要求1所述方法，其特征在于：所述网络搜索结构为单输入的网络搜索结构，所述下采样单元的数量为四个。

3.根据权利要求1所述方法，其特征在于：所述网络搜索结构为双输入的网络搜索结构，通过跳远连接将前两个网络单元输出的特征图作为下一个网络单元的输入。

4.根据权利要求3所述方法，其特征在于：评估阶段的剪枝保留权重最大的前两个支路。

5.根据权利要求1所述方法，其特征在于：特征图通过卷积网络计算得到权重向量；根据所述权重向量中元素的排序抽取特征图进行处理，并将得到的结果和剩下的特征图拼接在一起，作为当前单元的输出。

6.一种行人重识别方法，其特征在于，包括：

使用两部分网络，分别为前半部分网络和后半部分网络；所述前半部分网络是根据权利要求1至5任一项所述方法得到的行人重识别网络；

7.根据权利要求6所述方法，其特征在于：所述全局特征由三个约束条件来约束。

8.根据权利要求6所述方法，其特征在于：所述中粒度的特征由两个分类损失来约束；所述细粒度的特征由三个分类损失来约束。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行根据权利要求1至5任一项所述方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行根据权利要求6至8任一项所述方法。