CN114863486A - 联合全局和局部信息的层次监督行人再识别方法及系统 - Google Patents

联合全局和局部信息的层次监督行人再识别方法及系统 Download PDF

Info

Publication number
CN114863486A
CN114863486A CN202210607692.0A CN202210607692A CN114863486A CN 114863486 A CN114863486 A CN 114863486A CN 202210607692 A CN202210607692 A CN 202210607692A CN 114863486 A CN114863486 A CN 114863486A
Authority
CN
China
Prior art keywords
pedestrian
network
image
branch
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210607692.0A
Other languages
English (en)
Inventor
吴俊毅
高志鹏
姚灿荣
涂梅林
赵建强
杜新胜
张辉极
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202210607692.0A priority Critical patent/CN114863486A/zh
Publication of CN114863486A publication Critical patent/CN114863486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明给出了一种联合全局和局部信息的层次监督行人再识别方法和系统,包括将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。本发明提出的方法和系统执行一个单向聚合操作来推动CNN学习全局特征信息的同时,为了能充分利用全局特征信息和局部信息,结合双线性池化来执行层次监督,在跨长时间段的行人重识别数据集上有很显著的性能提升。

Description

联合全局和局部信息的层次监督行人再识别方法及系统
技术领域
本发明涉及计算机视觉的技术领域,尤其是联合全局和局部信息的层次监督行人再识别方法和系统。
背景技术
行人重识别是计算机视觉中一个典型的任务,其目的在不同摄像机视角下关联同一个人行人。在近几年随着监控系统在公共场所的广泛部署,行人重识别技术近年来受到越来越多的关注。行人重识别依靠着CNN强大的特征学习能力,获得许多先进显著的性能。然而,在实际场景下,行人的衣服着装是会发生变化的,这是目前行人重识别算法所忽略的问题。因此,现有的行人重识别算法针对的场景是短时间的,其行人外观着装变化不大。
由于行人姿态变换、视角变化、光照强度变化、背景干扰等因素的影响,行人重识别是一个具有挑战性的任务。对于跨长时间段的场景,外观变化可以看作是影响行人重识别系统性能的主要因素之一。
目前行人重识别还是主要针对研究短时间的场景,忽略了跨长时间段的场景。然而,在现实应用中,跨长时间段的行人重识别算法是一个主要的方法。对于跨长间段的场景,不但要考虑行人身上局部的细节信息,还要考虑图像中的全局信息,两种信息需要相辅相成。现有的行人重识别(re-ID)工作主要集中在短时间(short-term)情况下,行人着装基本不会有太大的变化。一个鲁棒的行人重识别系统应该考虑到行人着装这些变化。基于深度卷积神经网络(CNN)强大的表征能力,短时间的行人重识别获得了多项最先进的性能(Top-1和mAP)。然而,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景。
发明内容
为了解决现有技术中行人重识别(re-ID)工作主要集中在短时间(short-term)情况下,行人着装基本不会有太大的变化,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景等技术问题,本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统,以解决上述技术问题。
根据本发明的第一方面,提出了一种联合全局和局部信息的层次监督行人再识别方法,包括:
S1:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
S2:将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
S3:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,
Figure BDA0003672059840000021
其中,P和S的取值均为16,
Figure BDA0003672059840000022
代表向下取整函数,H和W表示高度和宽度。Transformers可用于获取图像中全局的特征依赖关系。
在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
在一些具体的实施例中,S3具体为:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:
Figure BDA0003672059840000023
Figure BDA0003672059840000024
其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure BDA0003672059840000025
代表Transformers分支通过expand层转换后的特征,
Figure BDA0003672059840000026
代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
在一些具体的实施例中,S4的具体表达式如下:
Figure BDA0003672059840000027
其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,
Figure BDA0003672059840000028
两个向量的外积,S代表常量。
在一些具体的实施例中,损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,三元组损失函数的公式为
Figure BDA0003672059840000029
Figure BDA00036720598400000210
其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,
Figure BDA00036720598400000211
为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为
Figure BDA0003672059840000031
其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本发明的第三方面,提出了一种联合全局和局部信息的层次监督行人再识别系统,系统包括:
图像切割模块:配置用于将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
张量拓展模块:配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
通道级联模块:配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
特征融合模块:配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,
Figure BDA0003672059840000032
其中,P和S的取值均为16,
Figure BDA0003672059840000033
代表向下取整函数,H和W表示高度和宽度。
在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
在一些具体的实施例中,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:
Figure BDA0003672059840000034
Figure BDA0003672059840000035
其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure BDA0003672059840000036
代表Transformers分支通过expand层转换后的特征,
Figure BDA0003672059840000037
代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
在一些具体的实施例中,
Figure BDA0003672059840000038
Figure BDA0003672059840000039
其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,
Figure BDA00036720598400000310
两个向量的外积,S代表常量。
在一些具体的实施例中,损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,三元组损失函数的公式为
Figure BDA0003672059840000041
Figure BDA0003672059840000042
其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,
Figure BDA0003672059840000043
为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为
Figure BDA0003672059840000044
其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统,充分利用CNN和Transformers的优势,提出一个并行的CNN-Transformers Network(CT-Net)算法来学习全局信息和局部显著信息。本发明提出的CT-Net执行一个单向聚合操作来推动CNN学习全局特征信息。与此同时,为了能充分利用全局特征信息和局部信息,CT-Net结合双线性池化来执行层次监督。为了证明本发明算法的有效性,我们在跨长时间段的行人重识别数据集上进行实验,实验性能有很显著的提升,能达到目前最先进的性能。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图;
图2是本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图;
图3是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图;
图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法,图1示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图。如图1所示,该方法包括:
S101:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入。Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,
Figure BDA0003672059840000051
其中,P和S的取值均为16,
Figure BDA0003672059840000052
代表向下取整函数,H和W表示高度和宽度。
S102:将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量。具体的,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
S103:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联。
在具体的实施例中,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:
Figure BDA0003672059840000053
其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure BDA0003672059840000054
代表Transformers分支通过expand层转换后的特征,
Figure BDA0003672059840000055
代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
S104:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
上述方法提出了一种联合全局特征和局部信息的层次监督行人重识别算法CT-Net,结合了CNN和Transformers的优势,来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系,CNN主要是用来关注局部的细节信息,Transformers的全局信息在训练过程中进行单向聚合给CNN,防止CNN在局部细节信息上过拟合,忽略了对全局信息的学习。与此同时,在CT-Net还引入双线性池化,充分的利用全局信息和局部信息来进行多层次的约束CT-Net。
在具体的实施例中,本发明提出了联合全局特征和局部信息的层次监督行人重识别算法CT-Net。图2示出了根据本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图,如图2所示,该算法的具体步骤包括:
步骤S1:本申请采用的Transformers是ViT,整个网络有12块一样结构的网路块,序号编号是0-11,输入图像(C×H×W)切成N个图像小块,N的表达式如下
Figure BDA0003672059840000061
Figure BDA0003672059840000062
其中P和S的取值均为16,
Figure BDA0003672059840000063
代表向下取整函数。划分后的N个小块作为CT-Net中Transformers分支的输入。
步骤S2:为了避免CT-Net中CNN分支过度学习局部信息,忽略特征信息,本申请将Transformers分支序号为1、3、5、8网络块的特征信息分别引入ResNet50中对应的残差卷积块。Transformers分支的全局特征信息是2D,因此需要先通过expand层将2D张量拓展为4D张量,拓展和对应残差卷积块一样大小的宽度、高度、通道数。
步骤S3:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复成和原来一样,然后经过BN层和ReLU激活函数,其表达式如下:
Figure BDA0003672059840000064
Figure BDA0003672059840000065
R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure BDA0003672059840000066
代表Transformers分支通过expand层转换后的特征,
Figure BDA0003672059840000067
代表ResNet50的特征,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1,以此类推。
步骤S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,然后通过损失函数进行约束。具体的,将Transformers分支通过expand层转换后的特征
Figure BDA0003672059840000068
和ResNet50的特征
Figure BDA0003672059840000069
通过vec操作由矩阵变成向量,通过两向量的外积获得的特征FTC,经过双线性池化层获得融合后的特征FTC′,并对该特征进行单位化运算获得特征
Figure BDA00036720598400000610
具体公式如下:
Figure BDA00036720598400000611
Figure BDA00036720598400000612
其中(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,
Figure BDA00036720598400000613
两个向量的外积,S代表常量。
步骤S5:整个图涉及到的损失函数均为三元组损失函数和标签平滑正则化的交叉熵损失函数,三元组损失函数和标签平滑正则化的交叉熵损失函数如下式所示:三元组损失函数的公式为
Figure BDA00036720598400000614
其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,
Figure BDA0003672059840000071
为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为
Figure BDA0003672059840000072
其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
本发明提出了一种联合全局特征和局部信息的层次监督行人重识别算法,主要是用来针对现实场景中的行人重识别问题。结合了CNN和Transformers的优势,来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系,CNN主要是用来关注局部的细节信息,Transformers的全局信息在训练过程中进行单向聚合给CNN,防止CNN在局部细节信息上过拟合,忽略了对全局信息的学习。与此同时,在CT-Net还引入双线性池化,充分的利用全局信息和局部信息来进行多层次的约束CT-Net。本发明在跨长时间段的行人重识别数据集进行实验,采用行人重识别的Top-1指标进行验证,可以达到60.2%Top-1,远远高于现有算法最好的性能。
继续参考图3,图3示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图。该系统具体包括粗图像切割模块301、张量拓展模块302、通道级联模块303和特征融合模块304。其中,图像切割模块301配置用于将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;张量拓展模块302配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;通道级联模块303配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;特征融合模块304配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种联合全局和局部信息的层次监督行人再识别方法,其特征在于,包括:
S1:将输入图像切成多个图像小块,将所述图像小块作为Transformers分支网络的输入;
S2:将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,所述expand层将2D张量拓展为4D张量;
S3:将拓展后的4D张量特征信息和对应的所述残差卷积块进行通道级联;
S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
2.根据权利要求1所述的行人再识别方法,其特征在于,所述Transformers分支网络包括12块同样结构的网络块,所述网络块的序号编号为0-11,所述输入图像被切为N个图像小块,
Figure FDA0003672059830000011
其中,P和S的取值均为16,
Figure FDA0003672059830000018
代表向下取整函数,H和W表示高度和宽度。
3.根据权利要求2所述的行人再识别方法,其特征在于,将序号编号为1、3、5、8的所述网络块的特征信息分别引入ResNet50中对应的残差卷积块。
4.根据权利要求1所述的行人再识别方法,其特征在于,所述S3具体为:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:
Figure FDA0003672059830000012
其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure FDA0003672059830000013
代表Transformers分支通过expand层转换后的特征,
Figure FDA0003672059830000014
代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
5.根据权利要求4所述的行人再识别方法,其特征在于,所述S4的具体表达式如下:
Figure FDA0003672059830000015
其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,
Figure FDA0003672059830000016
两个向量的外积,S代表常量。
6.根据权利要求1所述的行人再识别方法,其特征在于,所述损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,所述三元组损失函数的公式为
Figure FDA0003672059830000017
其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,
Figure FDA0003672059830000021
为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;所述标签平滑正则化的交叉熵损失函数的公式为
Figure FDA0003672059830000022
Figure FDA0003672059830000023
其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
7.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至6中任一项所述的方法。
8.一种联合全局和局部信息的层次监督行人再识别系统,其特征在于,所述系统包括:
图像切割模块:配置用于将输入图像切成多个图像小块,将所述图像小块作为Transformers分支网络的输入;
张量拓展模块:配置用于将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,所述expand层将2D张量拓展为4D张量;
通道级联模块:配置用于将拓展后的4D张量特征信息和对应的所述残差卷积块进行通道级联;
特征融合模块:配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
9.根据权利要求8所述的行人再识别系统,其特征在于,所述Transformers分支网络包括12块同样结构的网络块,所述网络块的序号编号为0-11,所述输入图像被切为N个图像小块,
Figure FDA0003672059830000024
其中,P和S的取值均为16,
Figure FDA0003672059830000025
代表向下取整函数,H和W表示高度和宽度。
10.根据权利要求9所述的行人再识别系统,其特征在于,将序号编号为1、3、5、8的所述网络块的特征信息分别引入ResNet50中对应的残差卷积块。
11.根据权利要求8所述的行人再识别系统,其特征在于,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:
Figure FDA0003672059830000026
其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,
Figure FDA0003672059830000027
代表Transformers分支通过expand层转换后的特征,
Figure FDA0003672059830000028
代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
12.根据权利要求11所述的行人再识别系统,其特征在于,
Figure FDA0003672059830000031
Figure FDA0003672059830000032
其中,(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,
Figure FDA0003672059830000033
两个向量的外积,S代表常量。
13.根据权利要求8所述的行人再识别系统,其特征在于,所述损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,所述三元组损失函数的公式为
Figure FDA0003672059830000034
其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,
Figure FDA0003672059830000035
为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;所述标签平滑正则化的交叉熵损失函数的公式为
Figure FDA0003672059830000036
Figure FDA0003672059830000037
其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
CN202210607692.0A 2022-05-31 2022-05-31 联合全局和局部信息的层次监督行人再识别方法及系统 Pending CN114863486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607692.0A CN114863486A (zh) 2022-05-31 2022-05-31 联合全局和局部信息的层次监督行人再识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607692.0A CN114863486A (zh) 2022-05-31 2022-05-31 联合全局和局部信息的层次监督行人再识别方法及系统

Publications (1)

Publication Number Publication Date
CN114863486A true CN114863486A (zh) 2022-08-05

Family

ID=82641315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607692.0A Pending CN114863486A (zh) 2022-05-31 2022-05-31 联合全局和局部信息的层次监督行人再识别方法及系统

Country Status (1)

Country Link
CN (1) CN114863486A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250870A (zh) * 2016-08-16 2016-12-21 电子科技大学 一种联合局部和全局相似性度量学习的行人再识别方法
US20210150194A1 (en) * 2017-07-04 2021-05-20 Peking University Shenzhen Graduate School Image feature extraction method for person re-identification
CN113408492A (zh) * 2021-07-23 2021-09-17 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250870A (zh) * 2016-08-16 2016-12-21 电子科技大学 一种联合局部和全局相似性度量学习的行人再识别方法
US20210150194A1 (en) * 2017-07-04 2021-05-20 Peking University Shenzhen Graduate School Image feature extraction method for person re-identification
CN113408492A (zh) * 2021-07-23 2021-09-17 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNYI WU: "A Two-Stream Hybrid Convolution-Transformer Network Architecture for Clothing-Change Person Re-Identification", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 26, 9 November 2023 (2023-11-09), pages 5326 - 5339, XP011963722, DOI: 10.1109/TMM.2023.3331569 *
SHUTING HE: "TransReID: Transformer-based Object Re-Identification", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 17 October 2021 (2021-10-17), pages 14993 - 15002, XP034093216, DOI: 10.1109/ICCV48922.2021.01474 *

Similar Documents

Publication Publication Date Title
JP7218805B2 (ja) ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
Li et al. Global aggregation then local distribution in fully convolutional networks
CN109614517B (zh) 视频的分类方法、装置、设备及存储介质
CN111696110B (zh) 场景分割方法及系统
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
CN110084172A (zh) 文字识别方法、装置和电子设备
Chen et al. Residual pyramid learning for single-shot semantic segmentation
CN113723344A (zh) 视频的识别方法、装置、可读介质和电子设备
CN114549369A (zh) 数据修复方法、装置、计算机及可读存储介质
CN111177460B (zh) 提取关键帧的方法及装置
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN111461181A (zh) 一种车辆细粒度分类方法及装置
CN113421267A (zh) 一种基于改进PointConv的点云语义与实例联合分割方法及系统
CN116740364A (zh) 一种基于参考机制的图像语义分割方法
CN114863486A (zh) 联合全局和局部信息的层次监督行人再识别方法及系统
CN116704433A (zh) 基于上下文感知关系预测编码的自监督群体行为识别方法
CN113627241B (zh) 一种用于行人重识别的背景抑制方法与系统
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
CN115830362A (zh) 图像处理方法、装置、设备、介质及产品
CN115017399B (zh) 一种网约车车型自动推荐方法和装置
He et al. Single maritime image dehazing using unpaired adversarial learning
CN115661492B (zh) 图像比对方法、装置、电子设备、存储介质和程序产品
Wang et al. A encoder-decoder deblurring network combined with high-frequency a priori
CN114820687A (zh) 一种闭环的端到端行人重识别背景抑制方法和系统
Li et al. Cam-Net: Compressed Attentive Multi-Granularity Network For Dynamic Scene Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination