CN110852168A

CN110852168A - 基于神经架构搜索的行人重识别模型构建方法及装置

Info

Publication number: CN110852168A
Application number: CN201910964255.2A
Authority: CN
Inventors: 彭进业; 曹蕊; 张世周; 王鹏; 张艳宁; 樊萍; 赵万青; 张二磊; 李斌
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-02-28

Abstract

本发明公开了一种基于神经架构搜索的行人重识别模型构建方法及装置，首先对输入的图像数据集进行随机采样和分组，并设置以三元组损失函数为辅助的目标函数来指导网络架构的搜索；然后，利用搜索到的最佳网络架构单元重复堆叠一个大型网络，并对该网络进行重训练，得到行人重识别模型，本发明提供的方法不仅仅考虑了分类精度，还利用了不同样本之间的距离，以最大化不同行人之间的特征识别能力，因此以此损失函数指导架构搜索的方向能够学习得到更适用于行人重识别并且性能表现更好网络架构，从而提高了行人重识别的准确率。

Description

基于神经架构搜索的行人重识别模型构建方法及装置

技术领域

本发明涉及行人重识别方法，具体涉及一种基于神经架构搜索的行人重识别模型构建方法及装置。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。一般是给定一个监控行人图像，检索跨设备下的该行人图像。

目前主要有两种行人重识别研究方法：一种是表征学习，另一种是度量学习。基于表征学习的方法是为了获得强大且具有辨别力的行人特征。基于度量学习的方法通过设计合适的距离度量函数来学习图像对之间的相似性，旨在使相同身份图像的距离尽可能小，并且不同识别图像的距离尽可能大。上述这些方法大多都是基于经典的在外部数据上预先训练好的分类神经网络架构(如着名的ResNet50，Inception和DenseNet)作为骨干网络，然后再使用目标数据对改进的网络进行微调。这样的做法导致网络架构固化且依赖于外部数据的预训练。此外，还有一些是人类专家为行人重识别任务专门设计网络的方法，但随着网络需求增加，手动网络设计变得更加困难，且往往无法实现最佳设置。

现有技术还提出了一种使用神经架构搜索技术作为解决上述问题的工具，神经架构搜索技术一般包括定义搜索空间，然后通过搜索策略找出候选网络结构，神经架构搜索技术提出基于单元cell的搜索，即只对cell结构进行结构搜索，总体网络由这些cell进行重叠拼接而成。

但是大多数神经架构搜索方法都是处理分类任务的，行人重识别的训练行人类别与测试行人类别没有交叉且性能评价指标类似于排序结果而并非是分类精度，这与神经架构搜索在分类上的优化目标不一致，并不能直接扩展到行人重识别任务，导致识别准确率不高，识别效果不佳。

发明内容

本发明的目的在于提供一种基于神经架构搜索的行人重识别模型构建方法及装置，用以解决现有技术中的神经架构搜索方法无法直接应用扩展到行人重识别任务上，导致行人重识别效果不好的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于神经架构搜索的行人重识别模型构建方法，按照以下步骤执行：

步骤1、获得行人图像数据集，所述的行人图像数据集包括训练数据集以及验证数据集；

所述的训练数据集以及验证数据集均包括多组数据，其中每组数据包括多个类别数据，每个类别数据包括多幅行人图像；

对于每幅行人图像，该行人图像本身为原样本，与原样本属于同一类别数据的其他所有行人图像均为正样本，每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本；

获得行人图像数据集中每幅行人图像对应的类别，获得标签集；

步骤2、将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，对初始网络中进行搜索，获得最优卷积单元；

所述的初始网络包括多个卷积单元；

在搜索时采用式I的损失函数L：

其中，

为交叉熵损失函数，x_i表示第i个原样本，i＝1,2，…，M，M表示一组数据中原样本的个数，y_i表示第i个原样本的类别，S(x_i)表示第i个原样本经过softmax激活后网络分类器的输出，F(x_i)表示第i个原样本的特征数据，

表示距离第i个原样本最大的正样本的特征数据，

表示距离第i个原样本最小的负样本的特征数据，d表示阈值参数，d>0，(z)₊表示max(0,z)；

步骤3、利用所述的最优卷积单元重复堆叠，获得初始行人重识别模型；

步骤4、将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，训练所述的初始行人重识别模型，获得行人重识别模型。

进一步地，所述的步骤2中将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，对初始网络中进行搜索时，采用DARTS方法作为搜索策略。

进一步地，采用DARTS方法作为搜索策略对初始网络进行搜索时，初始化训练次数为150，网络权重学习率为0.025，网络架构学习率为3×10^-4。

进一步地，所述的损失函数L中阈值参数d＝0.3。

一种基于神经架构搜索的行人重识别方法，按照以下步骤执行：

步骤A、获得待识别行人图像；

步骤B、将所述的待识别行人图像输入至基于神经架构搜索的行人重识别模型构建方法获得的行人重识别模型中，获得识别结果。

一种基于神经架构搜索的行人重识别模型构建装置，包括数据获得模块、单元搜索模块、模型搭建模块以及模型训练模块：

所述的数据获得模块用于获得行人图像数据集，所述的行人图像数据集包括训练数据集以及验证数据集；

所述的数据获得模块还用于获得行人图像数据集中每幅行人图像对应的类别，获得标签集；

所述的单元搜索模块用于将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，对初始网络中进行搜索，获得最优卷积单元；

所述的初始网络包括多个卷积单元；

在搜索时采用式I的损失函数L：

其中，

为交叉熵损失函数，x_i表示第i个原样本，i＝1,2，…，M，M表示一组数据中原样本的个数，y_i表示第i个原样本的类别，S(x_i)表示第i个原样本经过softmax激活后网络分类器的输出，F(x_i)表示第i个原样本的特征数据，表示距离第i个原样本最大的正样本的特征数据，

所述的模型搭建模块用于利用所述的最优卷积单元重复堆叠，获得初始行人重识别模型；

所述的模型训练模块用于将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，训练所述的初始行人重识别模型，获得行人重识别模型。

进一步地，所述的单元搜索模块中将所述的训练数据集以及验证数据集作为输入，将所述的标签集作为输出，对初始网络中进行搜索时，采用DARTS方法作为搜索策略。

进一步地，所述的损失函数L中阈值参数d＝0.3。

一种基于神经架构搜索的行人重识别装置，包括图像获取模块以及基于神经架构搜索的行人重识别模型构建装置；

所述的图像获取模块用于获得待识别行人图像；

所述的基于神经架构搜索的行人重识别模型构建装置用于输入所述待识别行人图像，获得识别结果。

本发明与现有技术相比具有以下技术效果：

1、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置，提出了一种适用于行人重识别任务的损失函数，对于行人重识别任务，测试数据集的身份类别是与训练数据集完全不重叠的其他类，这与分类任务的优化目标存在差异，仅仅只考虑分类精度不能保证搜索到的网络架构适用于本任务，所以考虑结合行人重识别的检索损失引导搜索的方向，这样，不仅仅考虑了分类精度，还利用了不同样本之间的距离，以最大化不同行人之间的特征识别能力，因此以此损失函数指导架构搜索的方向能够学习得到更适用于行人重识别并且性能表现更好网络架构，从而提高了行人重识别的准确率；

2、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置，采用DARTS方法作为搜索策略，相比其他大多数算法的很高的计算资源要求(基于强化学习，进化学习的算法可能需要成百上千个GPU),其克服了NAS算力成本巨大且耗时的缺陷并取得了有竞争力的性能,整个搜索过程仅仅只需要单片GPU就可以完成，并且DARTS方法在cifar10的分类任务上实现了高效的卷积神经网架构搜索，从而提高了行人重识别的实用性以及实时性；

3、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置，不再依赖于外部数据集的预训练，使用改进的神经架构搜索算法直接在目标数据集上自动生成了适于行人重识别任务的神经网络，经过实验对比，本发明提供的行人重识别方法的Rank-1准确度、Rank-5准确度、Rank-10准确度以及mAP评价指标均优于现有技术。

附图说明

图1为本发明的一个实施例中提供的最优卷积单元；

图2为本发明的一个实施例中提供的又一最优卷积单元；

图3为本发明的一个实施例中提供的识别结果。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

以下对本发明涉及的定义或概念内涵做以说明：

神经架构搜索：神经网络架构搜索的流程可以大致概括为：先定义一个搜索空间A，然后通过某种搜索策略(如，强化学习，进化算法，梯度下降策略等)在预定好的搜索空间搜索出候选的神经网络架构，对学习到的网络架构采用一定的手段进行性能评估并把评估的结果进行反馈后重新进行下一轮的搜索，最终期望寻找到最优的网络架构。

重复堆叠：卷积神经网络由若干个cell堆叠而成，堆叠方式为每一个cell的输入节点接收前两层cell的输出节点

搜索空间：搜索空间定义了原则上可以表征的架构。结合有关任务属性的先验知识，可以减少搜索空间的大小并简化搜索，在本发明中搜索空间采用基于cell的基本架构构建块，cell为n个节点的有向无环图，节点与节点之间的边操作放置了混合候选操作。

搜索策略：搜索策略详细说明了如何探索搜索空间。它包含了经典的「探索-利用」权衡；一方面，需要快速找到性能良好的架构，另一方面，应该避免过早收敛到次优架构区域。

实施例一

在本实施例中公开了一种基于神经架构搜索的行人重识别模型构建方法，本发明针对现有的行人重新识别方法大多使用在外部数据上预训练的分类网络作为主干导致网络架构固定并且依赖于外部数据的预训练，以及随着网络需求的增加，人类专家为其专门设计网络变得更加困难，并且往往无法实现最佳设置的问题。本发明使用神经结构搜索技术作为解决上述问题的工具，但由于大多数神经架构搜索方法都是针对分类任务提出的，为了协调两者优化目标之间的不一致性，提出以三元组损失为辅助的目标函数，以指导架构搜索的方向来改进搜索算法。

方法按照以下步骤执行：

在本实施例中，首先将数据随机混淆并将其按1:1的比例分为训练数据集和验证数据集两部分，为了保证训练数据集和验证数据集都分别包括所有类别(身份)，将数据按每一类随机划分成两半，一半为训练数据集，另外一半为验证数据集。

在本实施例中，其中任一组数据为：

其中，p≤P，P表示身份个数，k≤K，K表示每个身份对应的行人图像个数，P与K均为正整数；

对于每组数据中的行人图像I_kp，行人图像I_kp为原样本，行人图像[I_k1,I_k2,…,I_kp-1,I_kp+1,…,I_kP]为正样本，每组数据中除原样本以及正样本以外的所有行人图像均为负样本；原样本、正样本和负样本共同构成一个三元组。

在本实施例中，每个身份对应的行人图像均由不同摄像头采集获得。

在本实施例中，P取4，K取4。

在本实施例中，假设采集了10个行人的行人图像，每个行人对应有5张图像，一共50张图像，此时每个行人对应的5张图像都来自有不同的监控摄像头，每个行人都对应一个类别标签，也就是说，每个行人都对应各自的一类类别，因此该标签可以是1号行人、2号行人、……、10号行人；标签也可以是张一行人、李二行人、……，王十行人。

步骤2、利用所述的训练数据集在初始网络中进行搜索，获得最优卷积单元；所述的初始网络包括多个卷积单元，每个卷积单元包括多个节点；

在搜索时采用式I的损失函数L：

其中，

表示距离第i个原样本最大的正样本的特征数据，表示距离第i个原样本最小的负样本的特征数据，d表示阈值参数，d>0，(z)₊表示max(0,z)；

在本发明中，使用单元(cell)作为卷积神经网络架构的基本构建块。通过重复堆叠这些cell来形成最终复杂的网络架构。这样，对神经网络架构的搜索就被简化为对cell的搜索。假设网络架构由K个cell重复堆叠，并且该cell被抽象为由N个有序节点组成的有向无环图。

在本实施例中，设置每个卷积cell是由N＝7个节点组成的有向无环图。用K＝8个卷积cell重复堆叠一个初始网络。

接着，每个cell_k有两个输入节点，N-3个中间节点和一个输出节点。输入节点分别接收前两个cell_k-1和cell_k-2的输出，中间节点的转换公式为：

其中n_i和n_j分别代表第i个节点和第j个节点，o_i,j代表n_i到n_j使用的某种神经操作。输出节点由所有中间节点通过级联操作获得。本发明的搜索策略基于Hanxiao Liu等人在文献“DARTS:Differentiable architecture search[J].arXiv preprint arXiv:1806.09055,2018.”中提出的连续松弛方案，即通过在每条边上放置混合候选操作，使离散的搜索空间被松弛为连续的搜索空间，以下为连续松弛公式：

其中，O表示所有候选操作空间，

表示节点i和节点j之间的混合权重操作。通过公式(2)之后，网络架构搜索的任务就被转换为对连续变量集α＝{α^(i,j)}的学习，其中α被称为架构参数。在搜索结束时，用最大可能操作

替换混合操作

从而获得离散的网络架构。通过这样的方案，网络架构也被视为连续变量，因此，架构α和网络权重w的联合优化目标是可微的，可以基于梯度的优化算法来进行高效的网络架构搜索。

在本实施例中，O表示所有候选操作空间，在本实例中，O包括3×3、5×5和7×7的深度可分离卷积，3×3和5×5的扩张卷积，3×3的平均池化操作、3×3的最大池化操作、跳跃连接和零操作。

表示节点i和节点j之间的混合权重操作。

在本实施例中，对网络构架进行搜索实际上是一个求取最优值的过程，最终的优化目标是找到在满足与α相关的权重w(α)＝argmin_wL_T(w,α)的前提下，找到使L_V(w(α),α)最小化的α，L_T,L_V分别表示训练集和验证集损失值,损失公式为式I，二者均由α和w共同决定。

由于此时架构α和网络权重w联合优化目标是可微的，为了优化二者，本发明提出了式I的损失函数，使用梯度下降法对式I迭代更新，其中在训练集上更新网络权重w，在验证集上更新网络架构超参α，从而通过训练最小化。

可选地，所述的步骤2中利用所述的训练数据集在初始网络中进行搜索时，采用DARTS方法作为搜索策略。

由于DARTS方法在cifar10的分类任务上实现了高效的卷积神经网架构搜索，而且相比其他大多数算法的很高的计算资源要求(基于强化学习，进化学习的算法可能需要成百上千个GPU),其克服了NAS算力成本巨大且耗时的缺陷并取得了有竞争力的性能,整个搜索过程仅仅只需要单片GPU就可以完成。

可选地，采用DARTS方法作为搜索策略在初始网络中进行搜索时，初始化训练次数为150，网络权重学习率为0.025，网络架构学习率为3×10^-4。

用步骤1划分好的数据集在用K个卷积cell重复堆叠的初始网络中搜索网络架构，其中训练数据集用于训练网络权重w，验证数据集用于训练网络架构α，并以三元组损失函数为辅助建立如下损失函数：

可选地，所述的损失函数L中d＝0.3。

在本实施例中，行人重识别模型由若干个cell，重复堆叠而成，堆叠方式为每个cell的输入节点接收前两层cell的输出节点，在网络的1/3和2/3出为reduction cells，其他均为normal cells。由步骤2搜索得到的两种最佳cell：Reduction cell和Normal cell，如图1所示，在Market1501数据集搜索到的Normal cell，如图2所示，在Market1501数据集搜索到的Reduction cell。

步骤4、利用所述的训练数据集以及验证数据集训练所述的初始行人重识别模型，获得行人重识别模型。

在本实施例中，此时的训练数据使用未划分前的所有训练数据(包括之前用于搜索网络架构的验证数据集)，数据分组方式同样采用步骤1的三元组采样方式，重新训练此大型网络的网络权重w。并设置训练次数为600，学习率为0.025，采用随机梯度下降法进行训练，损失函数同式I，得到训练好的网络模型。

在本实施例中，为了评估通过网络架构搜索算法找到的行人重识别模型，测试数据集通常分为查询数据集和图库数据集，需要计算待查询图像与每张图库图像之间的相似性得分。先移除步骤3中训练好的20层的大型网络架构的最后一层分类层，将其作为特征提取器，然后，将测试数据集中的所有行人图像输入到该特征提取器以获得相应的深度卷积特征图，使用简单的欧式距离来计算待查询图像-图库图像特征向量对之间的相似度得分，计算公式如下：

d_p,g＝||f_NAS(p_i)-f_NAS(g_j)||₂

其中，f_NAS(·)表示特征提取操作，p_i和g_j分别表示第i个查询图像和第j个图库图像。计算得到的欧式距离越近，相似度的分就越高，说明该图库图像与待查询图像是相同身份行人的可能性就越大。并且，将图库数据集的图像按照与待查询图像的相似性得分从大到小依次进行排序。

本实施例中提供的模型构建方法，首先对输入的图像数据集进行随机采样和分组，并设置以三元组损失函数为辅助的目标函数来指导网络架构的搜索；然后，利用搜索到的最佳网络架构单元重复堆叠一个大型网络，并对该网络进行重训练，得到训练好的网络架构；最后，移除训练好的大型网络架构的最后一层分类层，将其作为特征提取器，分别对测试数据集中的图像进行特征提取，再计算测试数据集中的待查询图像与每张图库图像之间的相似性得分，根据得分大小对图库图像进行排序，从而判断重识别结果。利用本发明方法，最终可以实现不再依赖外部数据，直接在目标数据集上利用神经架构搜索自动生成具有出色性能的行人重识别网络。

实施例二

步骤A、获得待识别行人图像；

步骤B、将所述的待识别行人图像输入至实施例一的基于神经架构搜索的行人重识别模型构建方法获得的行人重识别模型中，获得识别结果。

在本实施例中，如图2所示，最左边一列是查询图像，右侧是在Market-1501图库数据集上的排序识别Rank-k(k＝10)结果。用五角星标注的代表识别错误的行人图像，而其他图像则为识别正确的图像。

实验对比例：

将本发明提供的行人重识别方法与现有的Inception方法、ResNet-50方法、Basel.+LSRO方法、MSCAN、SpindleNet以及CADL方法进行对比，对比结果见表1。

表1本发明与现有技术的性能对比

本发明提供的行人重识别方法的Rank-1和mAP分别达到78.8％和59.2％，相比ResNet-50基准，其Rank-1和mAP分别提升了1.5％和3.3％。与使用ImageNet预训练的方法(例如Basel.+LSRO)相比，我们的方法将Rank-1和mAP分别提高了0.7％和3.0％。我们的方法在Rank-1和mAP上也比专门设计的网络MSCAN分别高出2.5％和6.1％，并且在Rank-1和mAP上分别比Inception基准高出3.0％和7.4％。因此使用神经架构搜索可以自动生成性能更好的行人重识别网络，它不仅超越了一些经过外部数据预训练的依赖分类网络为骨干网络的方法，而且比人类专家专门设计的某些行人重识别网络也要好。

实施例三

在本实施例中提供了一种基于神经架构搜索的行人重识别模型构建装置，包括数据获得模块、单元搜索模块、模型搭建模块以及模型训练模块：

数据获得模块用于获得行人图像数据集，行人图像数据集包括训练数据集以及验证数据集；

训练数据集以及验证数据集均包括多组数据，其中每组数据包括多个类别数据，每个类别数据包括多幅行人图像；

数据获得模块还用于获得行人图像数据集中每幅行人图像对应的类别，获得标签集；

单元搜索模块用于将训练数据集以及验证数据集作为输入，将标签集作为输出，对初始网络中进行搜索，获得最优卷积单元；

初始网络包括多个卷积单元，每个卷积单元包括多个节点；

在搜索时采用式I的损失函数L：

其中，

表示距离第i个原样本最大的正样本的特征数据，

模型搭建模块用于利用最优卷积单元重复堆叠，获得初始行人重识别模型；

模型训练模块用于将训练数据集以及验证数据集作为输入，将标签集作为输出，训练初始行人重识别模型，获得行人重识别模型。

可选地，单元搜索模块中将训练数据集以及验证数据集作为输入，将标签集作为输出，对初始网络中进行搜索时，采用DARTS方法作为搜索策略。

可选地，采用DARTS方法作为搜索策略对初始网络进行搜索时，初始化训练次数为150，网络权重学习率为0.025，网络架构学习率为3×10^-4。

可选地，损失函数L中阈值参数d＝0.3。

实施例四

一种基于神经架构搜索的行人重识别装置，包括图像获取模块以及实施例三的基于神经架构搜索的行人重识别模型构建装置；

图像获取模块用于获得待识别行人图像；

基于神经架构搜索的行人重识别模型构建装置用于输入所述待识别行人图像，获得识别结果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。