CN114863486A

CN114863486A - 联合全局和局部信息的层次监督行人再识别方法及系统

Info

Publication number: CN114863486A
Application number: CN202210607692.0A
Authority: CN
Inventors: 吴俊毅; 高志鹏; 姚灿荣; 涂梅林; 赵建强; 杜新胜; 张辉极
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-05

Abstract

本发明给出了一种联合全局和局部信息的层次监督行人再识别方法和系统，包括将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入；将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量；将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联；将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。本发明提出的方法和系统执行一个单向聚合操作来推动CNN学习全局特征信息的同时，为了能充分利用全局特征信息和局部信息，结合双线性池化来执行层次监督，在跨长时间段的行人重识别数据集上有很显著的性能提升。

Description

联合全局和局部信息的层次监督行人再识别方法及系统

技术领域

本发明涉及计算机视觉的技术领域，尤其是联合全局和局部信息的层次监督行人再识别方法和系统。

背景技术

行人重识别是计算机视觉中一个典型的任务，其目的在不同摄像机视角下关联同一个人行人。在近几年随着监控系统在公共场所的广泛部署，行人重识别技术近年来受到越来越多的关注。行人重识别依靠着CNN强大的特征学习能力，获得许多先进显著的性能。然而，在实际场景下，行人的衣服着装是会发生变化的，这是目前行人重识别算法所忽略的问题。因此，现有的行人重识别算法针对的场景是短时间的，其行人外观着装变化不大。

由于行人姿态变换、视角变化、光照强度变化、背景干扰等因素的影响，行人重识别是一个具有挑战性的任务。对于跨长时间段的场景，外观变化可以看作是影响行人重识别系统性能的主要因素之一。

目前行人重识别还是主要针对研究短时间的场景，忽略了跨长时间段的场景。然而，在现实应用中，跨长时间段的行人重识别算法是一个主要的方法。对于跨长间段的场景，不但要考虑行人身上局部的细节信息，还要考虑图像中的全局信息，两种信息需要相辅相成。现有的行人重识别(re-ID)工作主要集中在短时间(short-term)情况下，行人着装基本不会有太大的变化。一个鲁棒的行人重识别系统应该考虑到行人着装这些变化。基于深度卷积神经网络(CNN)强大的表征能力，短时间的行人重识别获得了多项最先进的性能(Top-1和mAP)。然而，由于缺乏全局特征信息，现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景。

发明内容

为了解决现有技术中行人重识别(re-ID)工作主要集中在短时间(short-term)情况下，行人着装基本不会有太大的变化，由于缺乏全局特征信息，现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景等技术问题，本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统，以解决上述技术问题。

根据本发明的第一方面，提出了一种联合全局和局部信息的层次监督行人再识别方法，包括：

S1：将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入；

S2：将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量；

S3：将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联；

S4：将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。

在一些具体的实施例中，Transformers分支网络包括12块同样结构的网络块，网络块的序号编号为0-11，输入图像被切为N个图像小块，

其中，P和S的取值均为16，

代表向下取整函数，H和W表示高度和宽度。Transformers可用于获取图像中全局的特征依赖关系。

在一些具体的实施例中，将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。

在一些具体的实施例中，S3具体为：将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联，通道数增加为原来的2倍，为了使特征能正常送进下一个残差卷积块，采用1*1卷积将通道恢复，再经过BN层和ReLU激活函数，其表达式如下：

其中，R代表ReLU激活函数，B代表BN层，C_1*1代表1*1卷积层，

代表Transformers分支通过expand层转换后的特征，

代表ResNet50的特征，i对应分支网络的序号，i＝0时，对应的Transformers分支序号为1的网络块特征，ResNet50的conv1。

在一些具体的实施例中，S4的具体表达式如下：

其中，(x，y)代表特征在位置(x，y)处的值，vec操作将矩阵变成向量，

两个向量的外积，S代表常量。

在一些具体的实施例中，损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数，其中，三元组损失函数的公式为

其中P代表不同行人身份的数量，K₀代表每个行人选择K₀张不同的图像，对于每张训练图像x_a，在和x_a相同身份的图像中选择一张相似度距离最大的图像x_p作为正样本，在和x_a不同身份的图像中选择一张相似度距离最小的图像x_n作为负样本，

为认为设定的阈值，d(·,·)定义为欧式距离，batch表示批处理的参数大小；标签平滑正则化的交叉熵损失函数的公式为

其中ε∈[0,1]，K是行人的类别数，p(k)代表预测属于类别k的概率。

根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有一或多个计算机程序，该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。

根据本发明的第三方面，提出了一种联合全局和局部信息的层次监督行人再识别系统，系统包括：

图像切割模块：配置用于将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入；

张量拓展模块：配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量；

通道级联模块：配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联；

特征融合模块：配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。

其中，P和S的取值均为16，

代表向下取整函数，H和W表示高度和宽度。

在一些具体的实施例中，将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联，通道数增加为原来的2倍，为了使特征能正常送进下一个残差卷积块，采用1*1卷积将通道恢复，再经过BN层和ReLU激活函数，其表达式如下：

其中，R代表ReLU激活函数，B代表BN层，C_1*1代表1*1卷积层，

代表Transformers分支通过expand层转换后的特征，

在一些具体的实施例中，

两个向量的外积，S代表常量。

本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统，充分利用CNN和Transformers的优势，提出一个并行的CNN-Transformers Network(CT-Net)算法来学习全局信息和局部显著信息。本发明提出的CT-Net执行一个单向聚合操作来推动CNN学习全局特征信息。与此同时，为了能充分利用全局特征信息和局部信息，CT-Net结合双线性池化来执行层次监督。为了证明本发明算法的有效性，我们在跨长时间段的行人重识别数据集上进行实验，实验性能有很显著的提升，能达到目前最先进的性能。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图；

图2是本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图；

图3是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图；

图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法，图1示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图。如图1所示，该方法包括：

S101：将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入。Transformers分支网络包括12块同样结构的网络块，网络块的序号编号为0-11，输入图像被切为N个图像小块，

其中，P和S的取值均为16，

代表向下取整函数，H和W表示高度和宽度。

S102：将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量。具体的，将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。

S103：将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联。

在具体的实施例中，将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联，通道数增加为原来的2倍，为了使特征能正常送进下一个残差卷积块，采用1*1卷积将通道恢复，再经过BN层和ReLU激活函数，其表达式如下：

其中，R代表ReLU激活函数，B代表BN层，C_1*1代表1*1卷积层，

代表Transformers分支通过expand层转换后的特征，

S104：将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。

上述方法提出了一种联合全局特征和局部信息的层次监督行人重识别算法CT-Net，结合了CNN和Transformers的优势，来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系，CNN主要是用来关注局部的细节信息，Transformers的全局信息在训练过程中进行单向聚合给CNN，防止CNN在局部细节信息上过拟合，忽略了对全局信息的学习。与此同时，在CT-Net还引入双线性池化，充分的利用全局信息和局部信息来进行多层次的约束CT-Net。

在具体的实施例中，本发明提出了联合全局特征和局部信息的层次监督行人重识别算法CT-Net。图2示出了根据本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图，如图2所示，该算法的具体步骤包括：

步骤S1：本申请采用的Transformers是ViT，整个网络有12块一样结构的网路块，序号编号是0-11，输入图像(C×H×W)切成N个图像小块，N的表达式如下

其中P和S的取值均为16，

代表向下取整函数。划分后的N个小块作为CT-Net中Transformers分支的输入。

步骤S2：为了避免CT-Net中CNN分支过度学习局部信息，忽略特征信息，本申请将Transformers分支序号为1、3、5、8网络块的特征信息分别引入ResNet50中对应的残差卷积块。Transformers分支的全局特征信息是2D，因此需要先通过expand层将2D张量拓展为4D张量，拓展和对应残差卷积块一样大小的宽度、高度、通道数。

步骤S3：将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联，通道数增加为原来的2倍，为了使特征能正常送进下一个残差卷积块，采用1*1卷积将通道恢复成和原来一样，然后经过BN层和ReLU激活函数，其表达式如下：

R代表ReLU激活函数，B代表BN层，C_1*1代表1*1卷积层，

代表Transformers分支通过expand层转换后的特征，

代表ResNet50的特征，i＝0时，对应的Transformers分支序号为1的网络块特征，ResNet50的conv1，以此类推。

步骤S4：将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，然后通过损失函数进行约束。具体的，将Transformers分支通过expand层转换后的特征

和ResNet50的特征

通过vec操作由矩阵变成向量，通过两向量的外积获得的特征F_TC，经过双线性池化层获得融合后的特征F_TC′，并对该特征进行单位化运算获得特征

具体公式如下：

其中(x,y)代表特征在位置(x,y)处的值，vec操作将矩阵变成向量，

两个向量的外积，S代表常量。

步骤S5：整个图涉及到的损失函数均为三元组损失函数和标签平滑正则化的交叉熵损失函数，三元组损失函数和标签平滑正则化的交叉熵损失函数如下式所示：三元组损失函数的公式为

本发明提出了一种联合全局特征和局部信息的层次监督行人重识别算法，主要是用来针对现实场景中的行人重识别问题。结合了CNN和Transformers的优势，来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系，CNN主要是用来关注局部的细节信息，Transformers的全局信息在训练过程中进行单向聚合给CNN，防止CNN在局部细节信息上过拟合，忽略了对全局信息的学习。与此同时，在CT-Net还引入双线性池化，充分的利用全局信息和局部信息来进行多层次的约束CT-Net。本发明在跨长时间段的行人重识别数据集进行实验，采用行人重识别的Top-1指标进行验证，可以达到60.2％Top-1，远远高于现有算法最好的性能。

继续参考图3，图3示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图。该系统具体包括粗图像切割模块301、张量拓展模块302、通道级联模块303和特征融合模块304。其中，图像切割模块301配置用于将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入；张量拓展模块302配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量；通道级联模块303配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联；特征融合模块304配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。

下面参考图4，其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将输入图像切成多个图像小块，将图像小块作为Transformers分支网络的输入；将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块，expand层将2D张量拓展为4D张量；将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联；将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层，进行特征融合交互，并通过损失函数进行约束。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。