CN110348282A

CN110348282A - 用于行人重识别的方法和设备

Info

Publication number: CN110348282A
Application number: CN201910360288.6A
Authority: CN
Inventors: 刘紫燕; 万培佩; 白鹤; 张�杰
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-10-18
Anticipated expiration: 2039-04-30
Also published as: CN110348282B

Abstract

本发明的各实施方式涉及一种用于行人重识别的方法和设备。具体地，所述方法可以包括：借助于图像大数据集对残差网络预训练，用以提取图像的全局特征；将注意力机制网络与经预训练的所述残差网络融合，用以提取所述图像的局部特征；将所提取的所述图像的所述全局特征与所述局部特征融合，用以生成所述图像的行人特征；生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵，用以度量所述待识别图像与所述给定图像库中图像之间的相似度；以及基于所述距离矩阵，从所述给定图像库中输出与所述待识别图像匹配的图像。本发明还提供了与所述方法相对应的设备和计算机程序产品。

Description

用于行人重识别的方法和设备

技术领域

本公开的各实施方式总体上涉及图像处理领域，并且更具体地，本公开的各实施方式涉及一种用于行人重识别的方法和设备。

背景技术

本节旨在于提供在权利要求书中记载的本公开的背景或者上下文。这里的描述可以包括如下概念，这些概念可以被探求但是未必是先前已经设想或者探求的概念。因此，除非这里另有指示，在本节中描述的内容不是在本申请中的说明书和权利要求书之前的现有技术并且不因包含于本节中而被承认为现有技术。

行人重识别是判断非重叠摄像机在不同视角下的两个对象是否为同一对象的技术，该技术在学术界、工业界、人工智能和公安刑事侦查等方面得到了广泛的关注和应用。然而，实现该技术目前仍存在巨大的挑战。这是因为在实际情况下，摄像机拍摄对象易受到光照、视角、尺度等因素的影响，使得行人之间的类内同一个行人的差异甚至大于类间不同行人的差异，从而导致该技术的实现失败。

在行人重识别研究的早期，用于研究的数据集较小，通常为几十人至数百人。因此，大量人工设计的特征涌现出来，诸如MSCR、BioCov等。这些特征大体上可以分为低层视觉特征和中层语义特征两类，其中低层视觉特征包括颜色直方图、纹理特征和局部特征等；而中层语义特征包括发型、外套类型、是否背包等。同时，还有一些研究集中在特征之间的距离度量，例如，KISSME、XQDA等度量方法。后来，随着深度学习的流行和数据集规模的增大，基于深度学习的模型自2014年底逐渐被引入到行人重识别领域中。这类方法避免了人工设计，转而通过深度学习网络来自动提取特征，从而显著地提高了行人重识别的精度。而随着对行人重识别的深入研究，发现在深度学习中，由于光照、摄像机角度以及图像的像素等因素的影响，给行人重识别带来了严峻挑战。并且，仅仅依靠大型深度学习网络的方式也不能很好地解决行人重识别精度的问题。

发明内容

为了解决上述问题，在本上下文中，本公开的各实施方式的目的之一在于提供一种用于行人重识别的方法和设备。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，例如可以包括：借助于图像大数据集对残差网络预训练，用以提取图像的全局特征；将注意力机制网络与经预训练的所述残差网络融合，用以提取所述图像的局部特征；将所提取的所述图像的所述全局特征与所述局部特征融合，用以生成所述图像的行人特征；生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵，用以度量所述待识别图像与所述给定图像库中图像之间的相似度；以及基于所述距离矩阵，从所述给定图像库中输出与所述待识别图像匹配的图像。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中借助于图像大数据集对残差网络预训练可以包括通过深度学习将所述残差网络的输出层节点的数目与所述给定图像库的行人类别的数目调整为一致，其中所述深度学习可以包括数据增强机制和dropout机制中的任一机制或两者。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中将注意力机制网络与经预训练的所述残差网络融合可以包括将所述注意力机制网络连接到所述经预训练的所述残差网络中的特定层的后面；通过对所述图像下采样，逐步提取所述图像的所述局部特征；以及通过对经下采样的所述图像上采样，逐步将所述局部特征的尺寸放大，其中对所述图像下采样的数目与对经下采样的所述图像上采样的数目相同。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中将所提取的所述图像的所述全局特征与所述局部特征融合可以包括通过公式H(xⁱ)＝(1+M(xⁱ))*F(xⁱ)，将所提取的所述图像的所述全局特征与所述局部特征融合，其中H(xⁱ)是所述图像的所述行人特征，xⁱ是第i个行人样本，M(xⁱ)是所述注意力机制网络提取的所述图像的所述局部特征，F(xⁱ)是所述经预训练的所述残差网络提取的所述图像的所述全局特征，并且所述M(xⁱ)的最后输出激活函数是Sigmoid函数，输出范围为(0,1)，所述激活函数使得所述局部特征归一化，以便有效地影响所述全局特征。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，进一步可以包括采用随机梯度下降法对所述行人特征梯度求导；通过Softmax函数输出行人类别的概率；通过交叉熵损失函数对所述概率进行误差反馈；以及对所述行人特征梯度求导后的结果进行误差补偿，其中所述Softmax函数为：

θ₁,θ₂,…,θ_k表示所述残差网络的全连接层的权重，通过xⁱ所属所述行人类别j的概率p(y＝j|x),(j＝1,...,k)，得到xⁱ的K维输出，其中所述概率越大，其对应的所述行人类别是真实行人类别的概率越大，

其中所述交叉熵损失函数为：

m表示所述行人样本的数目，k表示所述行人类别的数目，xⁱ表示第i个行人样本，f(xⁱ)表示xⁱ的行人特征，y⁽ⁱ⁾表示第i个行人样本的所述真实行人类别，T表示所述残差网络的第T层，θ₁,θ₂,…,θ_k表示所述残差网络的全连接层的权重。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵可以包括使用L2范数计算所述待识别图像的行人特征Pn＝[p1,p2,…,pn]与所述给定图像库中图像的行人特征Gm＝[g1,g2,…,gm]之间的距离，其中n为所述待识别图像中行人的数目，m为所述给定图像库中图像中的行人的数目，

其中p_i＝[H(x¹),H(x²),...,H(x^t)]并且g_i＝[H(x¹),H(x²),...,H(x^t)]，H(*)表示行人的行人特征，得到距离矩阵

所述距离矩阵中的每一项表示所述待识别图像与所述给定图像库中图像的L2范数距离。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中从所述给定图像库中输出与所述待识别图像匹配的图像可以包括基于所述L2范数距离的大小，按照从小到大的顺序输出与所述待识别图像匹配的图像。

根据本公开一个方面的某些实施方式，提供了一种用于行人重识别的方法，其中所述图像大数据集可以是ImageNet数据集，并且所述残差网络可以是ResNet50网络。

根据本公开另一方面的某些实施方式，提供了一种用于行人重识别的设备，例如可以包括：至少一个处理单元；以及至少一个存储器，所述至少一个存储器与所述至少一个处理单元耦合并且存储有机器可读指令，当所述机器可读指令被所述至少一个处理单元执行时，使得所述设备执行根据上述任一所述方法的任一步骤。

根据本公开又一方面的某些实施方式，提供了一种有形存储在非瞬态计算机可读介质上的计算机程序产品，可以包括机器可执行指令，当所述机器可执行指令被执行时，使得所述机器执行根据上述任一所述方法的任一步骤。

本公开示例性实施方式提供的示例性解决方案至少可以带来如下显著的技术效果：通过预训练残差网络，并与注意力机制网络融合，避免了整个网络从头开始训练的耗时和不精确，也避免了网络陷入局部最优解，从而能够更有效地提高行人重识别的精度。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法流程图；

图2是示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法的示例图；

图3是示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法的另一示例图；

图4示意性示出了根据本发明示例性实施方式的、用于行人重识别的设备框图；以及

图5示意性示出了将从本发明示例性实施方式中受益并且可以是本发明示例性实施方式示例装置的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

下面结合附图对本发明的具体实施方式进行描述。

首先参考图1，其中图1是示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法流程图。

如图1所示，根据本发明的各示例性实施方式，在步骤101，方法100例如可以借助于图像大数据集对残差网络预训练，用以提取图像的全局特征。在一个示例性实施方式中，所述图像大数据集可以是ImageNet数据集，并且所述残差网络可以是ResNet50网络。应当注意，在不脱离本发明教导的前提下，本领域技术人员也可以选取其他图像数据集(诸如，CIFAR-10数据集)，以及其他残差网络(诸如，DenseNet网络)。此外，在一个示例性实施方式中，通过深度学习将所述残差网络的输出层节点的数目与所述给定图像库的行人类别的数目调整为一致，其中所述深度学习可以包括数据增强机制和dropout机制中的任一机制或两者。应当注意，本领域技术人员也可以选取其他深度学习机制。

进一步地，在步骤103，该方法100例如可以构建注意力机制网络。并且在步骤105，该方法100例如可以将注意力机制网络与经预训练的所述残差网络融合，用以提取所述图像的局部特征。具体地，在一个示例性实施方式中，将所述注意力机制网络连接到所述经预训练的所述残差网络中的特定层(诸如，残差网络中的第三层(layer3))的后面；通过对所述图像下采样，逐步提取所述图像的所述局部特征；以及通过对经下采样的所述图像上采样，逐步将所述局部特征的尺寸放大，其中对所述图像下采样的数目与对经下采样的所述图像上采样的数目相同。换言之，注意力机制网络可以逐渐提取局部特征并增大残差网络模型的感受野，再通过相同数量的上采样操作将局部特征的尺寸放大到原来输入局部特征的尺寸。

接下来，在步骤107，方法100可以训练经步骤105之后融合的网络。即，将所提取的所述图像的所述全局特征与所述局部特征融合，用以生成所述图像的行人特征。具体地，在一个示例性实施方式中，通过公式H(xⁱ)＝(1+M(xⁱ))*F(xⁱ)，将所提取的所述图像的所述全局特征与所述局部特征融合。其中，H(xⁱ)是所述图像的所述行人特征，xⁱ是第i个行人样本，M(xⁱ)是所述注意力机制网络提取的所述图像的所述局部特征，F(xⁱ)是所述经预训练的所述残差网络提取的所述图像的所述全局特征，并且所述M(xⁱ)的最后输出激活函数是Sigmoid函数，输出范围为(0,1)，所述激活函数使得所述局部特征归一化，以便有效地影响所述全局特征。此外应当注意，当M(xⁱ)为零时，只有F(xⁱ)全局特征提取，这样就不会导致整个网络的特征属性提取有较大损失，还能优化整个网络，从而最后融合得到最终行人特征。

在一个示例性实施方式中，在步骤107，方法100进一步可以包括采用随机梯度下降法对所述行人特征梯度求导；通过Softmax函数输出行人类别的概率；通过交叉熵损失函数对所述概率进行误差反馈；以及对所述行人特征梯度求导后的结果进行误差补偿，其中所述Softmax函数为：

θ₁,θ₂,…,θ_k表示所述残差网络的全连接层的权重，通过xⁱ所属所述行人类别j的概率p(y＝j|x),(j＝1,..,k)，得到xⁱ的K维输出，其中所述概率越大，其对应的所述行人类别是真实行人类别的概率越大，

其中所述交叉熵损失函数为：

在一个示例性实施方式中，在步骤109，方法100可以输入待识别的图像。并且，经由步骤107之后的网络，在步骤111，方法100提取待识别图像的行人特征。在一个示例性实施方式中，在步骤113，方法100可以输入图像库中的图像。并且，经由步骤107之后的网络，在步骤115，方法100提取图像库中图像的行人特征。

在一个示例性实施方式中，在步骤117，方法100可以生成待识别图像的行人特征(如上文步骤111所述)与给定图像库中图像的行人特征(如上文步骤115所述)的距离矩阵，用以度量所述待识别图像与所述给定图像库中图像之间的相似度。具体地，在一个示例性实施方式中，方法100使用L2范数计算所述待识别图像的行人特征Pn＝[p1,p2,…,pn]与所述给定图像库中图像的行人特征Gm＝[g1,g2,…,gm]之间的距离，其中n为所述待识别图像中行人的数目，m为所述给定图像库中图像中的行人的数目，

在一个示例性实施方式中，在步骤119，方法100可以基于所述距离矩阵，从所述给定图像库中输出与所述待识别图像匹配的图像。具体地，方法100可以基于所述L2范数距离的大小，按照从小到大的顺序输出与所述待识别图像匹配的图像。

图2是示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法200的示例图。如图所示，图2具体示出了训练残差网络(诸如，ResNet50)与注意力机制网络融合的网络，参考上文图1中的步骤105和步骤107所述，将注意力机制网络与残差网络ResNet50融合，并且采用随机梯度下降法进行梯度求导。具体地，如图2所示，方法200将图像201输入至经预训练后的残差网络ResNet50。经过残差网络ResNet50的第一层(layer1)和第二层(layer2)202之后，图像201被提取全局特征203并且经过一系列卷积操作产生全局特征206和207。在一个示例性实施方式中，全局特征203可以经由注意力机制网络204提取局部特征205。接下来，局部特征205可以与全局特征206融合成第一行人特征208。附加地或备选地，第一行人特征208可以被注意力机制网络209提取局部特征210。继而，该局部特征210可以与全局特征207进一步融合成第二行人特征211。接下来，例如通过损失函数对该第二行人特征211进一步操作，继而得到第三行人特征212、第四行人特征213和第五行人特征214。

图3是示意性示出了根据本发明示例性实施方式的、用于行人重识别的方法300的另一示例图。如图3所示，经融合的网络分为两支，左边是注意力机制网络，右边是残差网络ResNet50的卷积层。具体地，左边的注意力机制网络对图像301进行一系列的下采样操作，逐渐提取图像的局部特征并增大融合网络模型的感受野。继而，通过相同数目的上采样操作将局部特征的尺寸放大到原来输入局部特征的尺寸，最终得到图像301的局部特征303。通过该方式能够很容易地定位到图像的某一区域，并将其放大，从而能够很清晰的提取图像的局部特征。右边的残差网络ResNet50对图像进行一系列的卷积操作，逐渐提取图像的全局特征，最终得到图像301的全局特征302。最后，通过公式H(xⁱ)＝(1+M(xⁱ))*F(xⁱ)，将所提取的所述图像的所述全局特征302与所述局部特征303融合成图像301的行人特征304。

在介绍了根据本发明示例性实施方式的、用于行人重识别的方法100之后，接下来参考图4对根据本发明示例性实施方式的、用于行人重识别的设备400进行详细描述。

图4示出了根据本发明示例性实施方式的、用于行人重识别的设备400的示意性框图。设备400例如可以包括：预训练装置401，被配置为借助于图像大数据集对残差网络预训练，用以提取图像的全局特征；第一融合装置402，被配置为将注意力机制网络与经预训练的所述残差网络融合，用以提取所述图像的局部特征；第二融合装置403，被配置为将所提取的所述图像的所述全局特征与所述局部特征融合，用以生成所述图像的行人特征；生成装置404，被配置为生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵，用以度量所述待识别图像与所述给定图像库中图像之间的相似度；以及输出装置405，被配置为基于所述距离矩阵，从所述给定图像库中输出与所述待识别图像匹配的图像。

为清晰起见，在图4中并未示出各个装置所包含的子装置。然而，应当理解，设备400中记载的装置与分别参考图1描述的方法100中的步骤相对应。由此，上文针对图1的方法100描述的操作和特征同样适用于设备400及其中包含的装置和子装置，在此不再赘述。

应当理解，设备400可以利用各种方式来实现。例如，在某些实施方式中，设备400可以利用软件和/或固件模块来实现。此外，设备400也可以利用硬件模块来实现。例如，设备400可以实现为集成电路(IC)芯片或专用集成电路(ASIC)。设备400也可以实现为片上系统(SOC)。此外，设备400也可以利用硬件模块和软件和/或固件模块的组合来实现。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

下面，将参考图5来描述可以实现本发明的计算机设备。图5示意性示出了可以实现根据本发明的实施方式的计算设备的结构方框图。

图5中所示的计算机系统包括CPU(中央处理单元)501、RAM(随机存取存储器)502、ROM(只读存储器)503、系统总线504、硬盘控制器505、键盘控制器506、串行接口控制器507、并行接口控制器508、显示器控制器509、硬盘510、键盘511、串行外部设备512、并行外部设备513和显示器514。在这些部件中，与系统总线504相连的有CPU 501、RAM 502、ROM 503、硬盘控制器505、键盘控制器506、串行接口控制器507、并行接口控制器508和显示器控制器509。硬盘510与硬盘控制器505相连，键盘511与键盘控制器506相连，串行外部设备512与串行接口控制器507相连，并行外部设备513与并行接口控制器508相连，以及显示器514与显示器控制器509相连。

图5所述的结构方框图仅仅为了示例的目的而示出的，并非是对本发明的限制。在一些情况下，可以根据需要添加或者减少其中的一些设备。

本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了用户设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于行人重识别的方法，包括：

借助于图像大数据集对残差网络预训练，用以提取图像的全局特征；

将注意力机制网络与经预训练的所述残差网络融合，用以提取所述图像的局部特征；

将所提取的所述图像的所述全局特征与所述局部特征融合，用以生成所述图像的行人特征；

生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵，用以度量所述待识别图像与所述给定图像库中图像之间的相似度；以及

基于所述距离矩阵，从所述给定图像库中输出与所述待识别图像匹配的图像。

2.根据权利要求1所述的方法，其中借助于图像大数据集对残差网络预训练包括：

通过深度学习将所述残差网络的输出层节点的数目与所述给定图像库的行人类别的数目调整为一致，其中所述深度学习包括数据增强机制和dropout机制中的任一机制或两者。

3.根据权利要求1所述的方法，其中将注意力机制网络与经预训练的所述残差网络融合包括：

将所述注意力机制网络连接到所述经预训练的所述残差网络中的特定层的后面；

通过对所述图像下采样，逐步提取所述图像的所述局部特征；以及

通过对经下采样的所述图像上采样，逐步将所述局部特征的尺寸放大，

其中对所述图像下采样的数目与对经下采样的所述图像上采样的数目相同。

4.根据权利要求1所述的方法，其中将所提取的所述图像的所述全局特征与所述局部特征融合包括：

通过公式H(xⁱ)＝(1+M(xⁱ))*F(xⁱ)，将所提取的所述图像的所述全局特征与所述局部特征融合，

其中H(xⁱ)是所述图像的所述行人特征，xⁱ是第i个行人样本，M(xⁱ)是所述注意力机制网络提取的所述图像的所述局部特征，F(xⁱ)是所述经预训练的所述残差网络提取的所述图像的所述全局特征，并且所述M(xⁱ)的最后输出激活函数是Sigmoid函数，输出范围为(0,1)，所述激活函数使得所述局部特征归一化，以便有效地影响所述全局特征。

5.根据权利要求4所述的方法，进一步包括：

采用随机梯度下降法对所述行人特征梯度求导；

通过Softmax函数输出行人类别的概率；

通过交叉熵损失函数对所述概率进行误差反馈；以及

对所述行人特征梯度求导后的结果进行误差补偿，

其中所述Softmax函数为：

其中所述交叉熵损失函数为：

6.根据权利要求1所述的方法，其中生成待识别图像的行人特征与给定图像库中图像的行人特征的距离矩阵包括：

使用L2范数计算所述待识别图像的行人特征Pn＝[p1,p2,…,pn]与所述给定图像库中图像的行人特征Gm＝[g1,g2,…,gm]之间的距离，其中n为所述待识别图像中行人的数目，m为所述给定图像库中图像中的行人的数目，

7.根据权利要求6所述的方法，其中从所述给定图像库中输出与所述待识别图像匹配的图像包括：

基于所述L2范数距离的大小，按照从小到大的顺序输出与所述待识别图像匹配的图像。

8.根据权利要求1所述的方法，其中所述图像大数据集是ImageNet数据集，并且所述残差网络是ResNet50网络。

9.一种用于行人重识别的设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器与所述至少一个处理单元耦合并且存储有机器可读指令，当所述机器可读指令被所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至8中任一项所述方法的任一步骤。

10.一种有形存储在非瞬态计算机可读介质上的计算机程序产品，包括机器可执行指令，当所述机器可执行指令被执行时，使得所述机器执行根据权利要求1至8中任一项所述方法的任一步骤。