CN114863486A - 联合全局和局部信息的层次监督行人再识别方法及系统 - Google Patents
联合全局和局部信息的层次监督行人再识别方法及系统 Download PDFInfo
- Publication number
- CN114863486A CN114863486A CN202210607692.0A CN202210607692A CN114863486A CN 114863486 A CN114863486 A CN 114863486A CN 202210607692 A CN202210607692 A CN 202210607692A CN 114863486 A CN114863486 A CN 114863486A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- network
- image
- branch
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 60
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000000844 transformation Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010923 batch production Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 abstract description 4
- 238000004220 aggregation Methods 0.000 abstract description 4
- 238000005096 rolling process Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明给出了一种联合全局和局部信息的层次监督行人再识别方法和系统,包括将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。本发明提出的方法和系统执行一个单向聚合操作来推动CNN学习全局特征信息的同时,为了能充分利用全局特征信息和局部信息,结合双线性池化来执行层次监督,在跨长时间段的行人重识别数据集上有很显著的性能提升。
Description
技术领域
本发明涉及计算机视觉的技术领域,尤其是联合全局和局部信息的层次监督行人再识别方法和系统。
背景技术
行人重识别是计算机视觉中一个典型的任务,其目的在不同摄像机视角下关联同一个人行人。在近几年随着监控系统在公共场所的广泛部署,行人重识别技术近年来受到越来越多的关注。行人重识别依靠着CNN强大的特征学习能力,获得许多先进显著的性能。然而,在实际场景下,行人的衣服着装是会发生变化的,这是目前行人重识别算法所忽略的问题。因此,现有的行人重识别算法针对的场景是短时间的,其行人外观着装变化不大。
由于行人姿态变换、视角变化、光照强度变化、背景干扰等因素的影响,行人重识别是一个具有挑战性的任务。对于跨长时间段的场景,外观变化可以看作是影响行人重识别系统性能的主要因素之一。
目前行人重识别还是主要针对研究短时间的场景,忽略了跨长时间段的场景。然而,在现实应用中,跨长时间段的行人重识别算法是一个主要的方法。对于跨长间段的场景,不但要考虑行人身上局部的细节信息,还要考虑图像中的全局信息,两种信息需要相辅相成。现有的行人重识别(re-ID)工作主要集中在短时间(short-term)情况下,行人着装基本不会有太大的变化。一个鲁棒的行人重识别系统应该考虑到行人着装这些变化。基于深度卷积神经网络(CNN)强大的表征能力,短时间的行人重识别获得了多项最先进的性能(Top-1和mAP)。然而,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景。
发明内容
为了解决现有技术中行人重识别(re-ID)工作主要集中在短时间(short-term)情况下,行人着装基本不会有太大的变化,由于缺乏全局特征信息,现有的短时间行人重识别方法不能推广到跨长时间段(long-term)的行人重识别场景等技术问题,本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统,以解决上述技术问题。
根据本发明的第一方面,提出了一种联合全局和局部信息的层次监督行人再识别方法,包括:
S1:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
S2:将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
S3:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。Transformers可用于获取图像中全局的特征依赖关系。
在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
在一些具体的实施例中,S3具体为:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下: 其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
在一些具体的实施例中,S4的具体表达式如下:
在一些具体的实施例中,损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,三元组损失函数的公式为 其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本发明的第三方面,提出了一种联合全局和局部信息的层次监督行人再识别系统,系统包括:
图像切割模块:配置用于将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;
张量拓展模块:配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;
通道级联模块:配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;
特征融合模块:配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
在一些具体的实施例中,Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。
在一些具体的实施例中,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
在一些具体的实施例中,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下: 其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
在一些具体的实施例中,损失函数包括三元组损失函数和标签平滑正则化的交叉熵损失函数,其中,三元组损失函数的公式为 其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
本发明提出了一种联合全局和局部信息的层次监督行人再识别方法和系统,充分利用CNN和Transformers的优势,提出一个并行的CNN-Transformers Network(CT-Net)算法来学习全局信息和局部显著信息。本发明提出的CT-Net执行一个单向聚合操作来推动CNN学习全局特征信息。与此同时,为了能充分利用全局特征信息和局部信息,CT-Net结合双线性池化来执行层次监督。为了证明本发明算法的有效性,我们在跨长时间段的行人重识别数据集上进行实验,实验性能有很显著的提升,能达到目前最先进的性能。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图;
图2是本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图;
图3是本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图;
图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的一种联合全局和局部信息的层次监督行人再识别方法,图1示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别方法的流程图。如图1所示,该方法包括:
S101:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入。Transformers分支网络包括12块同样结构的网络块,网络块的序号编号为0-11,输入图像被切为N个图像小块,其中,P和S的取值均为16,代表向下取整函数,H和W表示高度和宽度。
S102:将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量。具体的,将序号编号为1、3、5、8的网络块的特征信息分别引入ResNet50中对应的残差卷积块。
S103:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联。
在具体的实施例中,将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复,再经过BN层和ReLU激活函数,其表达式如下:其中,R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i对应分支网络的序号,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1。
S104:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
上述方法提出了一种联合全局特征和局部信息的层次监督行人重识别算法CT-Net,结合了CNN和Transformers的优势,来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系,CNN主要是用来关注局部的细节信息,Transformers的全局信息在训练过程中进行单向聚合给CNN,防止CNN在局部细节信息上过拟合,忽略了对全局信息的学习。与此同时,在CT-Net还引入双线性池化,充分的利用全局信息和局部信息来进行多层次的约束CT-Net。
在具体的实施例中,本发明提出了联合全局特征和局部信息的层次监督行人重识别算法CT-Net。图2示出了根据本申请的一个具体的实施例的一种联合全局和局部信息的层次监督行人再识别算法框架图,如图2所示,该算法的具体步骤包括:
步骤S1:本申请采用的Transformers是ViT,整个网络有12块一样结构的网路块,序号编号是0-11,输入图像(C×H×W)切成N个图像小块,N的表达式如下 其中P和S的取值均为16,代表向下取整函数。划分后的N个小块作为CT-Net中Transformers分支的输入。
步骤S2:为了避免CT-Net中CNN分支过度学习局部信息,忽略特征信息,本申请将Transformers分支序号为1、3、5、8网络块的特征信息分别引入ResNet50中对应的残差卷积块。Transformers分支的全局特征信息是2D,因此需要先通过expand层将2D张量拓展为4D张量,拓展和对应残差卷积块一样大小的宽度、高度、通道数。
步骤S3:将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联,通道数增加为原来的2倍,为了使特征能正常送进下一个残差卷积块,采用1*1卷积将通道恢复成和原来一样,然后经过BN层和ReLU激活函数,其表达式如下: R代表ReLU激活函数,B代表BN层,C1*1代表1*1卷积层,代表Transformers分支通过expand层转换后的特征,代表ResNet50的特征,i=0时,对应的Transformers分支序号为1的网络块特征,ResNet50的conv1,以此类推。
步骤S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,然后通过损失函数进行约束。具体的,将Transformers分支通过expand层转换后的特征和ResNet50的特征通过vec操作由矩阵变成向量,通过两向量的外积获得的特征FTC,经过双线性池化层获得融合后的特征FTC′,并对该特征进行单位化运算获得特征具体公式如下: 其中(x,y)代表特征在位置(x,y)处的值,vec操作将矩阵变成向量,两个向量的外积,S代表常量。
步骤S5:整个图涉及到的损失函数均为三元组损失函数和标签平滑正则化的交叉熵损失函数,三元组损失函数和标签平滑正则化的交叉熵损失函数如下式所示:三元组损失函数的公式为其中P代表不同行人身份的数量,K0代表每个行人选择K0张不同的图像,对于每张训练图像xa,在和xa相同身份的图像中选择一张相似度距离最大的图像xp作为正样本,在和xa不同身份的图像中选择一张相似度距离最小的图像xn作为负样本,为认为设定的阈值,d(·,·)定义为欧式距离,batch表示批处理的参数大小;标签平滑正则化的交叉熵损失函数的公式为其中ε∈[0,1],K是行人的类别数,p(k)代表预测属于类别k的概率。
本发明提出了一种联合全局特征和局部信息的层次监督行人重识别算法,主要是用来针对现实场景中的行人重识别问题。结合了CNN和Transformers的优势,来获取局部细节信息和全局信息。Transformers主要是用来获取图像中全局的特征依赖关系,CNN主要是用来关注局部的细节信息,Transformers的全局信息在训练过程中进行单向聚合给CNN,防止CNN在局部细节信息上过拟合,忽略了对全局信息的学习。与此同时,在CT-Net还引入双线性池化,充分的利用全局信息和局部信息来进行多层次的约束CT-Net。本发明在跨长时间段的行人重识别数据集进行实验,采用行人重识别的Top-1指标进行验证,可以达到60.2%Top-1,远远高于现有算法最好的性能。
继续参考图3,图3示出了根据本申请的实施例的一种联合全局和局部信息的层次监督行人再识别系统的框架图。该系统具体包括粗图像切割模块301、张量拓展模块302、通道级联模块303和特征融合模块304。其中,图像切割模块301配置用于将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;张量拓展模块302配置用于将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;通道级联模块303配置用于将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;特征融合模块304配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将输入图像切成多个图像小块,将图像小块作为Transformers分支网络的输入;将部分Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,expand层将2D张量拓展为4D张量;将拓展后的4D张量特征信息和对应的残差卷积块进行通道级联;将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种联合全局和局部信息的层次监督行人再识别方法,其特征在于,包括:
S1:将输入图像切成多个图像小块,将所述图像小块作为Transformers分支网络的输入;
S2:将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,所述expand层将2D张量拓展为4D张量;
S3:将拓展后的4D张量特征信息和对应的所述残差卷积块进行通道级联;
S4:将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
3.根据权利要求2所述的行人再识别方法,其特征在于,将序号编号为1、3、5、8的所述网络块的特征信息分别引入ResNet50中对应的残差卷积块。
7.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至6中任一项所述的方法。
8.一种联合全局和局部信息的层次监督行人再识别系统,其特征在于,所述系统包括:
图像切割模块:配置用于将输入图像切成多个图像小块,将所述图像小块作为Transformers分支网络的输入;
张量拓展模块:配置用于将部分所述Transformers分支网络的网络快的特征信息通过expand层后引入ResNet50分支网络中对应的残差卷积块,所述expand层将2D张量拓展为4D张量;
通道级联模块:配置用于将拓展后的4D张量特征信息和对应的所述残差卷积块进行通道级联;
特征融合模块:配置用于将Transformers分支通过expand层转换后的特征和对应的ResNet50特征经过双线性池化层,进行特征融合交互,并通过损失函数进行约束。
10.根据权利要求9所述的行人再识别系统,其特征在于,将序号编号为1、3、5、8的所述网络块的特征信息分别引入ResNet50中对应的残差卷积块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210607692.0A CN114863486A (zh) | 2022-05-31 | 2022-05-31 | 联合全局和局部信息的层次监督行人再识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210607692.0A CN114863486A (zh) | 2022-05-31 | 2022-05-31 | 联合全局和局部信息的层次监督行人再识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863486A true CN114863486A (zh) | 2022-08-05 |
Family
ID=82641315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210607692.0A Pending CN114863486A (zh) | 2022-05-31 | 2022-05-31 | 联合全局和局部信息的层次监督行人再识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863486A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250870A (zh) * | 2016-08-16 | 2016-12-21 | 电子科技大学 | 一种联合局部和全局相似性度量学习的行人再识别方法 |
US20210150194A1 (en) * | 2017-07-04 | 2021-05-20 | Peking University Shenzhen Graduate School | Image feature extraction method for person re-identification |
CN113408492A (zh) * | 2021-07-23 | 2021-09-17 | 四川大学 | 一种基于全局-局部特征动态对齐的行人重识别方法 |
-
2022
- 2022-05-31 CN CN202210607692.0A patent/CN114863486A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250870A (zh) * | 2016-08-16 | 2016-12-21 | 电子科技大学 | 一种联合局部和全局相似性度量学习的行人再识别方法 |
US20210150194A1 (en) * | 2017-07-04 | 2021-05-20 | Peking University Shenzhen Graduate School | Image feature extraction method for person re-identification |
CN113408492A (zh) * | 2021-07-23 | 2021-09-17 | 四川大学 | 一种基于全局-局部特征动态对齐的行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
JUNYI WU: "A Two-Stream Hybrid Convolution-Transformer Network Architecture for Clothing-Change Person Re-Identification", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 26, 9 November 2023 (2023-11-09), pages 5326 - 5339, XP011963722, DOI: 10.1109/TMM.2023.3331569 * |
SHUTING HE: "TransReID: Transformer-based Object Re-Identification", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 17 October 2021 (2021-10-17), pages 14993 - 15002, XP034093216, DOI: 10.1109/ICCV48922.2021.01474 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7218805B2 (ja) | ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション | |
Li et al. | Global aggregation then local distribution in fully convolutional networks | |
CN109614517B (zh) | 视频的分类方法、装置、设备及存储介质 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN110084172A (zh) | 文字识别方法、装置和电子设备 | |
Chen et al. | Residual pyramid learning for single-shot semantic segmentation | |
CN113723344A (zh) | 视频的识别方法、装置、可读介质和电子设备 | |
CN114549369A (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
CN111177460B (zh) | 提取关键帧的方法及装置 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN111461181A (zh) | 一种车辆细粒度分类方法及装置 | |
CN113421267A (zh) | 一种基于改进PointConv的点云语义与实例联合分割方法及系统 | |
CN116740364A (zh) | 一种基于参考机制的图像语义分割方法 | |
CN114863486A (zh) | 联合全局和局部信息的层次监督行人再识别方法及系统 | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN113627241B (zh) | 一种用于行人重识别的背景抑制方法与系统 | |
CN116524261A (zh) | 一种基于多模态小样本持续学习的图像分类方法及产品 | |
CN115830362A (zh) | 图像处理方法、装置、设备、介质及产品 | |
CN115017399B (zh) | 一种网约车车型自动推荐方法和装置 | |
He et al. | Single maritime image dehazing using unpaired adversarial learning | |
CN115661492B (zh) | 图像比对方法、装置、电子设备、存储介质和程序产品 | |
Wang et al. | A encoder-decoder deblurring network combined with high-frequency a priori | |
CN114820687A (zh) | 一种闭环的端到端行人重识别背景抑制方法和系统 | |
Li et al. | Cam-Net: Compressed Attentive Multi-Granularity Network For Dynamic Scene Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |