CN117612266A - 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 - Google Patents
基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 Download PDFInfo
- Publication number
- CN117612266A CN117612266A CN202410095404.7A CN202410095404A CN117612266A CN 117612266 A CN117612266 A CN 117612266A CN 202410095404 A CN202410095404 A CN 202410095404A CN 117612266 A CN117612266 A CN 117612266A
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- resolution
- network
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000009499 grossing Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100270014 Arabidopsis thaliana APR2 gene Proteins 0.000 description 1
- 241000271897 Viperidae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Abstract
本发明公开了一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,所述方法包括:对跨分辨率样本视频进行预处理,将视频分割为连续的帧,并统一图像尺寸,选取高分辨率行人图像和低分辨率行人图像;对高分辨率行人图像进行多尺度下采样,对多尺度的图像重构网络进行训练;每个尺度的重构图像输入到与图像重构网络对应连接的行人重识别网络,对行人重识别网络进行训练;将待识别的视频处理后输入训练好的相应尺度的图像重构网络,重构的图像输入到对应的训练好的行人重识别网络,得到最终的行人特征表示。本发明解决跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题,达到了提高低分辨率行人重识别的效果。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法。
背景技术
随着监控摄像机在交通、学校、医院等公共场所的大量部署,行人图像及视频数据快速增长,传统的依赖于人工进行行人检索的方式面临巨大挑战。行人重识别的目标是从非重叠的多摄像机监控系统中检索特定行人的图像或视频片段,可以协助用户在海量行人数据库中进行快速有效的检索。而不同摄像机可能具有不同的硬件参数、同一行人与不同摄像机之间的距离也可能存在差异,即存在高分辨率和低分辨率的行人图像,进而导致采集到的行人图像分辨率并不一致。由于低分辨率图像通常包含更少的行人鉴别信息,且其与高分辨率图像在空间特征上存在差异,这就造成了行人重识别效果的降低,因此需要研究并解决行人重识别中的跨分辨率行人重识别带来的问题。
目前大多数通用行人重识别方法假设由不同摄像机拍摄的行人图像具有相同的分辨率,直接将需要匹配的图片通过插值变成一样的大小,而实际上低分辨率图像通常包含更少的行人鉴别信息,且其与高分辨率图像在空间特征上存在差异。现有与之相关的技术可以分为两类:(1)学习与分辨率无关的行人特征表示。这类方法在统一高分辨率特征和低分辨率特征的过程中导致了高分辨率图像中所包含的额外信息的丢失。由于低分辨率图像包含的信息少于高分辨率图像,行人重识别网络从低分辨率特征中获取的行人身份信息有限,限制了此类方法的性能;(2)通过超分辨率网络将低分辨率图像复原成高分辨率图像。现有中国专利文献公开了申请号为CN201910191960.3的基于超分辨图像生成的低分辨率行人重识别系统和方法,该方法联合训练行人属性引导的分辨网络模型,根据余弦相似度得到不同分辨率的行人图像匹配的结果。但是由于超分辨率网络无法完全弥补低分辨率图像中缺失的信息,因此低分辨率图像恢复出的高分辨率图像和真实高分辨率图像之间仍存在差异性。此外,由不同尺度的低分辨率图像恢复出的高分辨率图像之间也存在差异性,此方法专注于采用循环对抗生成网络生成低分辨率图像相对应的高分辨率图像,而忽略了行人鉴别特征的学习。
发明内容
发明目的:为了克服背景技术的不足,针对跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题,本发明公开了一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,通过级联多尺度重构网络将不同分辨率的行人图像进行对齐并利用多尺度行人重构网络提取每个尺度下重构图像的特征来提高低分辨率行人重识别的效果。
技术方案:为了实现以上发明目的,本发明的一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,包括以下步骤:
(1)对跨分辨率样本视频进行预处理,将视频分割为连续的帧,并统一图像尺寸,选取高分辨率行人图像样本和低分辨率行人图像样本;
(2)对高分辨率行人图像样本进行多尺度下采样,得到不同分辨率尺度图像,将不同分辨率尺度图像连同原始图像一起输入到级联的多尺度图像重构网络,其中各级图像重构网络的分辨率尺度递增,且前一级图像重构网络的输出作为后一级图像重构网络的输入,得到多尺度的重构图像,并计算图像重构网络的损失函数,在设置的训练批次下对多尺度的图像重构网络进行训练;
(3)每个尺度的重构图像输入到与对应级别图像重构网络连接的行人重识别网络,提取对应尺度下重构图像的特征,各个尺度下提取的特征拼接作为行人重识别网络的输出,并根据输出结果计算行人重识别网络的损失函数,在设置的训练批次下对行人重识别网络进行训练;
(4)将待识别的视频分割为连续的帧,并统一图像尺寸,获取高分辨率图像和低分辨率图像,将高分辨率图像进行多尺度下采样后连同低分辨率图像一起,输入到训练好的图像重构网络,得到各尺度重构图像,再分别输入到对应的训练好的行人重识别网络,提取各个尺度下的特征并进行拼接,得到最终的行人特征表示。
进一步地,所述步骤(1)中,每帧图像的尺寸都裁剪为包含256*128个像素,选取高分辨率行人图像样本和低分辨率行人图像样本,将所有图像样本转换为张量的数据形式,使用通道均值和标准差进行标准化,再将张量归一化为(0,1)之间。
进一步地,所述步骤(2)中,对高分辨率行人图像样本进行多尺度下采样包括:对每张图像进行下采样操作并生成三张具有不同分辨率的图像,所使用的下采样系数从中随机选择,所对应的分辨率分别记为/>、/>和/>,之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸,对应图像分别记为/>、/>和/>。
进一步地,所述级联的多尺度图像重构网络包括具有相同网络结构但不进行权值共享的三个图像重构网络,每个图像重构网络包括一个编码器和一个解码器:编码器用于从图像中提取特征表示,其由两部分组成,每个部分包含了四个卷积层,第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出;解码器由两个反卷积层组成,用于将编码器提取的特征重建成图像。
进一步地,图像重构网络的损失函数由每一级图像重构网络的输出图像与对应分辨率尺度图像之间的距离的总和构成。
进一步地,所述距离采用均方误差来衡量。
进一步地,所述行人重识别网络采用ResNet-50作为骨干网络,骨干网络输出的张量被平均池化层水平地分成4个局部特征,并拼接作为行人重识别网络的输出。
进一步地,每个行人重识别网络的损失函数由标签平滑交叉熵损失和三元组损失的和构成。
进一步地,标签平滑交叉熵损失定义如下:
,
其中是根据特征表示/>预测的属于分类c的评定值,/>,所述特征表示/>是行人重识别网络i提取出的特征,h是行人重识别网络提取出的局部特征索引,H是局部特征个数;C是训练集中行人身份的总数,/>是经过平滑的标签属于分类c的真实分布,记为:
,
其中l是当前图像的真实行人身份标签,是用来控制标签放宽程度的参数,。
进一步地,三元组损失定义为:
,
其中是锚点图像经过行人重识别网络i得到的特征表示,/>,/>是锚点图像的第h个局部特征,H是局部特征个数,/>和/>分别为最难正样本和最难负样本的特征,m为超参数间隔,/>是两个特征表示之间的欧几里得距离。
有益效果:
(1)本发明采用级联多尺度重构网络用以将不同分辨率的行人图像在图像层进行对齐,使用多个图像重构网络为给定的输入图像重构多张具有特定分辨率尺度的重构图像。解决由于低分辨率图像在图像层面上细节丢失的而导致识别精度不高的技术问题,更多地保留多个分辨率尺度下有利于行人匹配的线索。
(2)本发明采用多尺度行人重识别网络以将待匹配行人在特征层实现对齐,使用多个行人重识别网络分别提取对应尺度下重构图像的特征,并将这些特征拼接起来作为最终特征表示,解决了不同分辨率尺度图像相互干扰的技术问题,降低待匹配行人在特征层的差异性。
(3)本发明实现不同分辨率的图像在多个尺度下进行图像层和特征层的对齐,行人特征可以适应分辨率的变化。解决跨分辨率的行人图像导致行人重识别的检索精度低、匹配效果差的问题,达到了提高低分辨率行人重识别的效果。
附图说明
图1是本发明的行人重识别方法流程图;
图2是本发明的两个模块设计思路示意图;
图3是本发明图像重构网络中提取特征的结构图;
图4是本发明行人重识别网络中提取特征的结构图;
图5是本发明级联多尺度重构模块和多尺度行人特征学习模块结构图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
如图1所示,一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,包括以下步骤:
S1、对跨分辨率样本视频进行预处理,将视频分割为连续的帧,并统一图像尺寸,选取高分辨率行人图像样本和低分辨率行人图像样本;
S2、对高分辨率行人图像进行多尺度下采样,利用多尺度下采样后的图像和原始图像对级联的多尺度图像重构网络进行训练;
S3、每个尺度的重构图像输入到与图像重构网络对应连接的行人重识别网络,提取行人特征,对行人重识别网络进行训练;
S4、将待识别的视频处理后输入训练好的相应尺度的图像重构网络,重构的图像输入到对应的训练好的行人重识别网络,得到最终的行人特征表示。
根据本发明的实施方式,在步骤S1中,利用摄像头获取跨分辨率的行人视频信息,对视频进行预处理,包括:将视频分割为连续的帧,进行统一初始化,每帧图像的尺寸都裁剪为包含相同数量的像素,选取高分辨率行人图像样本和低分辨率行人图像样本,将所有图像样本转换为张量(Tensor)的数据形式,使用通道均值和标准差进行标准化,再将张量归一化为(0,1)之间。
这里,选取高分辨率行人图像样本和低分辨率行人图像样本是根据原始图片的分辨率来划分的,例如,可以预先设置一个分辨率阈值,在阈值之上的为高分辨率,低于阈值的为低分辨率,由此分别选取高分辨率图像样本和低分辨率图像样本。本发明对具体高低分辨率范围的设置不做限制。
本发明在步骤S2中对级联的多尺度图像重构网络进行训练,在步骤S3中对行人重识别网络进行训练,其目的是为了训练出对行人鉴别特征具有优秀把握能力的识别模型。本发明中,级联的多尺度图像重构网络也称为级联多尺度重构模块,其利用多个图像重构网络将待匹配行人在多个尺度下进行图像层对齐。行人重识别网络是和图像重构网络对应连接的关系,因此多个行人重识别网络也可以称为多尺度行人重识别网络,或者称为多尺度行人特征学习模块,其目的是将待匹配行人在多个尺度下进行特征层对齐。
根据本发明的实施方式,参照图2,基于PyTorch深度学习框架构造一个级联多尺度重构模块和多尺度行人特征学习模块,分别实现不同分辨率的行人图像在多个尺度下进行的图像层和特征层的对齐。
根据本发明的实施方式,级联的多尺度图像重构网络包括三个图像重构网络。如图3所示,每个图像重构网络包括一个编码器和一个解码器:编码器主要用于从图像中提取特征表示,其由两部分组成,每个部分包含了四个卷积层,第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出;解码器由两个反卷积层组成,用于将编码器提取的特征重建成图像。三个图像重构网络具有相同的网络结构,但它们之间不进行权值共享。三个图像重构网络级联组成一个级联多尺度重构模块。
在训练阶段,对高分辨率行人图像样本进行多尺度下采样,下采样的图像和原始的高分辨率行人图像输入级联多尺度重构模块,采用均方误差损失最小化计算损失函数;对于每张输入图像,依次通过三个图像重构网络生成三张具有不同分辨率的新图像,代替原始图像进行特征提取。生成的新图像称为重构图像。参照图5,级联的多尺度重构模块中,各级图像重构网络的分辨率尺度递增,第一级图像重构网络对应的分辨率尺度为,第二级图像重构网络对应的分辨率尺度为/>,第三级图像重构网络对应的分辨率尺度为,且前一级图像重构网络的输出作为后一级图像重构网络的输入。每个图像重构网络通过编码器和解码器操作得到对应尺度的重构图像。为了描述的便利,下文中以图像重构网络1/3代表第一级图像重构网络,以图像重构网络1/2代表第二级图像重构网络,以图像重构网络1代表第三级图像重构网络。根据级联多尺度重构模块,将不同分辨率原始图像重构出的图像在不同尺度下进行对齐,在图像层降低待匹配行人之间的差异性。
具体实施时,假设是一个包含高分辨率(High Resolution,记为HR)图像的集合,其中/>表示一张高分辨率图像,/>表示其行人身份标注。为了训练图像重构网络,对/>中的每张图像/>进行下采样操作并生成三张具有不同分辨率的图像。所使用的下采样系数从/>中随机选择,所对应的分辨率分别记为/>、/>和/>。这里,1/a指的是将原始图片进行下采样,使图片长宽都变为原来的1/a。LR是Low Resolution的缩写。之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸,对应图像分别记为、/>和/>。在下采样和尺寸还原的过程中,图像中行人的身份并不会被改变,且这些图像仅用于方法的训练过程。
经下采样的图像(即、/>和/>)以及其原始图像/>被输入图像重构网络1/3,得到的输出分别记为/>、/>、/>以及/>。为使/>、/>、/>以及/>尽可能地与/>相似,采用均方误差损失最小化图像重构网络1/3输出的图像和分辨率尺度图像之间的距离,记为:
,
之后,、/>、/>和/>被输入图像重构网络1/2,对应的输出记为/>,/>,和/>。该输出被输入图像重构网络1,对应的输出记为/>,/>,/>和/>。图像重构网络1/2的损失函数记为:
,
图像重构网络1的损失函数记为:
,
整体图像重构网络的总损失函数定义为:
。
根据损失函数,使用Adam优化器,权重衰减设为5e-4,一共训练60个epoch。
根据本发明的实施方式,参照图5,多尺度行人特征学习模块包括三个行人重识别网络,分别与一个图像重构网络对应连接。该模块通过三个行人重识别网络分别提取对应尺度下重构图像的特征,并将三个特征拼接作为最终的行人特征表示。由于具有不同分辨率的原始图像被三个分辨率尺度重构图像的特征所表示,从而导致了待匹配行人在特征层差异性的降低。每个行人重识别网络的结构相同,但是权值不共享。主要原因是通过使用专门的行人重识别网络提取对应分辨率尺度重构图像的特征,可以使网络更加专注于该尺度下行人鉴别信息的学习,而不会受到来自于其它分辨率尺度图像的干扰。为了描述的便利,下文中,与第一级图像重构网络连接的行人重识别网络表示为行人重识别网络1/3,与第二级图像重构网络连接的行人重识别网络表示为行人重识别网络1/2,与第三级图像重构网络连接的行人重识别网络表示为行人重识别网络1。通过多尺度行人特征学习模块,将不同分辨率的重构图像的特征提取出来,并进行拼接形成最终的行人特征表示,在特征层降低待匹配行人之间的差异性。
如图4所示,行人重识别网络的结构中,骨干网络(ResNet-50)输出的张量被平均池化层水平地分成4个部分,每个水平部分作为行人的一个局部特征,并将4个局部特征拼接作为行人重识别网络的输出。在训练时期,采用标签平滑交叉熵损失和三元组损失监督行人重识别网络。
具体地,对于一张给定的输入图像(记为y),由级联多尺度重构模块重构出的具有不同分辨率的图像分别记为、/>和/>,并依次输入行人重识别网络1/3、行人重识别网络1/2以及行人重识别网络1中。三个行人重识别网络提取出的特征分别记为/>、/>和/>,最终的行人特征表示记为:
。
对于重构图像,/>,对应行人重识别网络提取出的特征记为:
,
其中f的上标1,2,3,4表示局部特征分块的索引,这里一共是四个局部特征。因此,公式可重新表示为:
。
然后,定义行人重识别网络1/3的损失函数,并使用标签平滑交叉熵损失和三元组损失监督行人重识别网络的训练。给定一张重构图像,交叉熵损失可表示为:
,
其中,是根据特征表示/>预测出的属于分类的评定值,C表示训练集中行人身份的总数。h是行人重识别网络识别出的局部特征索引。/>表示属于分类c的真实分布,记为:
,
其中l表示这张图像的真实行人身份标注,即标签。为了避免过拟合,使用标签平滑的方式为真实值赋予小于1的置信度,定义属于分类c的行人身份标注的分布如下:
,
其中是一个用来控制标签放宽程度的参数,/>。假设一共有C个行人ID,原始的标签形式为(1,0,…,0),这表示行人ID索引为0。平滑之后,标签形式为(/>,/>,…,/>),放宽了标签的约束,避免过拟合。则标签平滑交叉熵损失函数如下:
。
对于一批包含M个行人,每个行人N张图像的批次数据,给定一张锚点图像,将其特征记为,三元组损失可如下表示:
,
其中最难正样本和最难负样本的特征分别记为和/>,超参数间隔记为/>,表示两个特征表示之间的欧几里得距离。[a]+=max(a,0)避免取值为负。
因此,行人重识别网络1/3的损失函数可以表示为:
。
行人重识别网络1/2和行人重识别网络1的损失函数是和行人重识别网络1/3同样的计算方式,只是特征的输入不同。
整体行人重识别网络总的损失记为:
,
其中和/>分别是行人重识别网络1/2和行人重识别网络1的损失函数。
训练时,类似于其他多任务学习方法,对和/>分别进行反向传播。根据损失函数,使用Adam优化器,权重衰减设为5e-4,一共训练60个epoch。得到训练好的模型。
在步骤S4中,利用训练好的模型来进行行人重识别。将待识别的视频分割为连续的帧,并统一图像尺寸,获取高分辨率图像和低分辨率图像,将高分辨率图像进行多尺度下采样后连同低分辨率图像一起,输入到训练好的图像重构网络,得到各尺度重构图像,再分别输入到对应的训练好的行人重识别网络,提取各个尺度下的特征并进行拼接,得到最终的行人特征表示。
下面通过实验对该方法的性能进行验证,并与现有技术中多种行人重识别方法进行对比。实验中所有图像的尺寸均被调整为256*128,模型总计训练60个Epoch,每批次训练数据包含随机抽取的属于5个行人的20张图像。对于每个行人,选取2张高分辨率图像和2张低分辨率图像。在训练图像重构网络时仅使用高分辨率图像以及下采样得到的图像。
在级联多尺度重构模块中,编码器核的大小设为3。在前30个Epoch中,学习率设为,并在剩下的30个Epoch中将学习率降低为/>。
在多尺度行人特征学习模块中,使用在ImageNet上预训练的ResNet-50作为行人重识别骨干网络。在前30个Epoch中,学习率设为,并在剩下的30个Epoch中将学习率降低为/>。三元组损失中的超参数间隔m设为0.5。
采用五个公开的跨分辨率行人重识别数据集上进行实验,包括一个真实的跨分辨率数据集CAVIAR和四个模拟跨分辨率数据集(即MLR-Market-1501,MLR-CUHK03,MLRVIPeR和MLR-SYSU),对训练得到的模型进行测试。
CAVIAR数据集的图像采自2个摄像机,包括属于72个行人的1220张图像。由于两个摄像机和行人之间的距离不同,这两个摄像机采集到的行人图像具有不同的分辨率。将只出现在一个摄像机中的22个行人的图像移除。对于剩下的50个行人,为每个行人选取10张高分辨率图像和10张低分辨率图像构建数据集。
MLR-Market-1501是基于包含6个摄像机图像的Market-1501 数据集构建而成的,包含属于751个行人的3,561张训练图像和属于750个行人的15,913张测试图像。随机选择一个摄像机中的图像并对其下采样,下采样系数从中随机选择,生成包含三个分辨率尺度的低分辨率图像。其它摄像机中的图像保持不变。
MLR-CUHK03数据集是基于包含5个摄像机,1,467个行人的14,097张图像的CUHK03数据集构建而成的,其中训练集图像包含1,367个行人,剩余100个行人的图像用作测试集。
MLR-VIPeR数据集是基于包含2个摄像机,632个行人的1,264张图像的VIPeR数据集构建而成的。该数据集根据行人身份标注被随机地分为不重叠的两部分,分别用于训练和测试。
MLR-SYSU数据集是基于包含2个摄像机,502个行人的24,446张图像的SYSU数据集构建而成的。对于每个行人,随机地从每个摄像机中选取3张图像。这些图像根据行人身份标注被随机地划分为不重叠的两个部分,分别用于训练和测试。
MLR-CUHK03、MLR-VIPeR、MLR-SYSU和MLR-Market-1501数据集采用相同的下采样策略。
如图5所示,测试图像先通过级联多尺度重构模块,依次经过三个分辨率尺度下的图像重构网络,并生成三张重构图像;接着通过多尺度行人特征学习模块,经过每个尺度下的行人重识别网络从重构图像中提取特征。最后将对应于三个分辨率尺度的特征拼接成为该测试图像的最终特征表示。
表1示出了本发明所提方法和其他跨分辨率行人重识别方法在上述数据集上的性能表现。表中JUDEA、SLD2L、SDF、SING 、CSR-GAN、FFSR+RIFE、RAIN、CAD-Net、INTACT、RI、PCB+RI、APSR以及MRJL均为跨分辨率行人重识别方法。相比较而言,本发明所提方法在真实跨分辨率数据集CAVIAR上取得了62.4%的Rank-1准确率,领先于其他所有对比方法。在4个人工数据集(MLR-VIPeR、MLR-SYSU、MLR-Market-1501 和MLR-CUHK03)上,性能表现达到了先进水平,大部分性能指标达到了目前最高水平。
表1 本方法与其他行人重识别方法的准确度对比
本发明能够较为准确识别跨分辨率的行人图像,可应用在多个领域中提升效率,例如,可以帮助安全监控系统更好地追踪和识别可疑行为,提高公共场所的安全性;利用本发明能够识别顾客的身份和行为习惯,为企业提供更好的个性化服务和精准营销。
Claims (10)
1.一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,其特征在于,包括以下步骤:
(1)对跨分辨率样本视频进行预处理,将视频分割为连续的帧,并统一图像尺寸,选取高分辨率行人图像样本和低分辨率行人图像样本;
(2)对高分辨率行人图像样本进行多尺度下采样,得到不同分辨率尺度图像,将不同分辨率尺度图像连同原始图像一起输入到级联的多尺度图像重构网络,其中各级图像重构网络的分辨率尺度递增,且前一级图像重构网络的输出作为后一级图像重构网络的输入,得到多尺度的重构图像,并计算图像重构网络的损失函数,在设置的训练批次下对多尺度的图像重构网络进行训练;
(3)每个尺度的重构图像输入到与对应级别图像重构网络连接的行人重识别网络,提取对应尺度下重构图像的特征,各个尺度下提取的特征拼接作为行人重识别网络的输出,并根据输出结果计算行人重识别网络的损失函数,在设置的训练批次下对行人重识别网络进行训练;
(4)将待识别的视频分割为连续的帧,并统一图像尺寸,获取高分辨率图像和低分辨率图像,将高分辨率图像进行多尺度下采样后连同低分辨率图像一起,输入到训练好的图像重构网络,得到各尺度重构图像,再分别输入到对应的训练好的行人重识别网络,提取各个尺度下的特征并进行拼接,得到最终的行人特征表示。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,每帧图像的尺寸都裁剪为包含256*128个像素,选取高分辨率行人图像样本和低分辨率行人图像样本,将所有图像样本转换为张量的数据形式,使用通道均值和标准差进行标准化,再将张量归一化为(0,1)之间。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,对高分辨率行人图像样本进行多尺度下采样包括:对每张图像进行下采样操作并生成三张具有不同分辨率的图像,所使用的下采样系数从中随机选择,所对应的分辨率分别记为/>、/>和/>,之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸,对应图像分别记为、/>和/>。
4.根据权利要求3所述的方法,其特征在于,所述级联的多尺度图像重构网络包括具有相同网络结构但不进行权值共享的三个图像重构网络,每个图像重构网络包括一个编码器和一个解码器:编码器用于从图像中提取特征表示,其由两部分组成,每个部分包含了四个卷积层,第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出;解码器由两个反卷积层组成,用于将编码器提取的特征重建成图像。
5.根据权利要求1所述的方法,其特征在于,图像重构网络的损失函数由每一级图像重构网络的输出图像与对应分辨率尺度图像之间的距离的总和构成。
6.根据权利要求5所述的方法,其特征在于,所述距离采用均方误差来衡量。
7.根据权利要求1所述的方法,其特征在于,所述行人重识别网络采用ResNet-50作为骨干网络,骨干网络输出的张量被平均池化层水平地分成4个局部特征,并拼接作为行人重识别网络的输出。
8.根据权利要求1所述的方法,其特征在于,每个行人重识别网络的损失函数由标签平滑交叉熵损失和三元组损失的和构成。
9.根据权利要求8所述的方法,其特征在于,标签平滑交叉熵损失定义如下:
,
其中是根据特征表示/>预测的属于分类c的评定值,/>,所述特征表示/>是行人重识别网络i提取出的特征,h是行人重识别网络提取出的局部特征索引,H是局部特征个数;C是训练集中行人身份的总数,/>是经过平滑的标签属于分类c的真实分布,记为:
,
其中l是当前图像的真实行人身份标签,是用来控制标签放宽程度的参数,/>。
10.根据权利要求8所述的方法,其特征在于,三元组损失定义为:
,
其中是锚点图像经过行人重识别网络i得到的特征表示,/>,/>是锚点图像的第h个局部特征,H是局部特征个数,/>和/>分别为最难正样本和最难负样本的特征,m为超参数间隔,/>是两个特征表示之间的欧几里得距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095404.7A CN117612266B (zh) | 2024-01-24 | 2024-01-24 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095404.7A CN117612266B (zh) | 2024-01-24 | 2024-01-24 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117612266A true CN117612266A (zh) | 2024-02-27 |
CN117612266B CN117612266B (zh) | 2024-04-19 |
Family
ID=89953920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410095404.7A Active CN117612266B (zh) | 2024-01-24 | 2024-01-24 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612266B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109993072A (zh) * | 2019-03-14 | 2019-07-09 | 中山大学 | 基于超分辨图像生成的低分辨率行人重识别系统和方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110717411A (zh) * | 2019-09-23 | 2020-01-21 | 湖北工业大学 | 一种基于深层特征融合的行人重识别方法 |
CN111666843A (zh) * | 2020-05-25 | 2020-09-15 | 湖北工业大学 | 一种基于全局特征和局部特征拼接的行人重识别方法 |
CN111709311A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 一种基于多尺度卷积特征融合的行人重识别方法 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
CN112949608A (zh) * | 2021-04-15 | 2021-06-11 | 南京邮电大学 | 基于孪生语义自编码器和分支融合的行人重识别方法 |
CN113240585A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 基于生成对抗网络的图像处理方法、装置及存储介质 |
CN113449552A (zh) * | 2020-03-25 | 2021-09-28 | 江苏翼视智能科技有限公司 | 基于分块非直接耦合gan网络的行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
WO2022246677A1 (zh) * | 2021-05-26 | 2022-12-01 | 深圳高性能医疗器械国家研究院有限公司 | 一种增强ct图像的重建方法 |
CN116092122A (zh) * | 2023-01-17 | 2023-05-09 | 同济人工智能研究院(苏州)有限公司 | 一种协作多特征聚类无监督行人再识别方法和系统 |
CN116416649A (zh) * | 2023-04-14 | 2023-07-11 | 东南大学 | 一种基于多尺度分辨率对齐的视频行人重识别方法 |
CN117373062A (zh) * | 2023-10-24 | 2024-01-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 |
-
2024
- 2024-01-24 CN CN202410095404.7A patent/CN117612266B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109993072A (zh) * | 2019-03-14 | 2019-07-09 | 中山大学 | 基于超分辨图像生成的低分辨率行人重识别系统和方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110717411A (zh) * | 2019-09-23 | 2020-01-21 | 湖北工业大学 | 一种基于深层特征融合的行人重识别方法 |
CN113449552A (zh) * | 2020-03-25 | 2021-09-28 | 江苏翼视智能科技有限公司 | 基于分块非直接耦合gan网络的行人重识别方法 |
CN111666843A (zh) * | 2020-05-25 | 2020-09-15 | 湖北工业大学 | 一种基于全局特征和局部特征拼接的行人重识别方法 |
CN111709311A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 一种基于多尺度卷积特征融合的行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
CN112949608A (zh) * | 2021-04-15 | 2021-06-11 | 南京邮电大学 | 基于孪生语义自编码器和分支融合的行人重识别方法 |
WO2022246677A1 (zh) * | 2021-05-26 | 2022-12-01 | 深圳高性能医疗器械国家研究院有限公司 | 一种增强ct图像的重建方法 |
CN113240585A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 基于生成对抗网络的图像处理方法、装置及存储介质 |
CN116092122A (zh) * | 2023-01-17 | 2023-05-09 | 同济人工智能研究院(苏州)有限公司 | 一种协作多特征聚类无监督行人再识别方法和系统 |
CN116416649A (zh) * | 2023-04-14 | 2023-07-11 | 东南大学 | 一种基于多尺度分辨率对齐的视频行人重识别方法 |
CN117373062A (zh) * | 2023-10-24 | 2024-01-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 |
Non-Patent Citations (7)
Title |
---|
KE HAN等: "Adaptive super-resolution for person re-identification with low-resolution images", 《PATTERN RECOGNITION》, vol. 114, 1 October 2020 (2020-10-01), pages 1 - 12 * |
XIAO-JIAO MAO等: "Image Restoration Using Convolutional Auto-encoders with Symmetric Skip Connections", 《ARXIV:1606.08921V3》, 30 August 2016 (2016-08-30), pages 1 - 17 * |
YUEYING LI等: "Person re-identification based on multi-scale feature learning", 《KNOWLEDGE-BASED SYSTEMS》, vol. 228, 8 July 2021 (2021-07-08), pages 1 - 11, XP086738954, DOI: 10.1016/j.knosys.2021.107281 * |
张富凯: "基于城市视频监控图像的车辆重识别关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 2021, 15 April 2021 (2021-04-15), pages 138 - 18 * |
曹鹏娟: "基于深度学习的球栅阵列焊点空洞缺陷检测方法研究", 《万方数据》, 22 August 2023 (2023-08-22), pages 1 - 73 * |
李燕: "基于深度学习的图像去雾算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2024, 15 January 2024 (2024-01-15), pages 138 - 1699 * |
汪振兴: "基于图像超分辨率技术的跨分辨率行人重识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2022, 15 January 2022 (2022-01-15), pages 138 - 2895 * |
Also Published As
Publication number | Publication date |
---|---|
CN117612266B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
CN111311563B (zh) | 一种基于多域特征融合的图像篡改检测方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Wang et al. | UNFusion: A unified multi-scale densely connected network for infrared and visible image fusion | |
CN109615582A (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN110111256B (zh) | 基于残差蒸馏网络的图像超分辨重建方法 | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN102982520B (zh) | 一种基于轮廓先验的鲁棒性人脸超分辨率处理方法 | |
CN107123091A (zh) | 一种基于深度学习的近红外人脸图像超分辨率重建方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN113221641A (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN109214989A (zh) | 基于多方向特征预测先验的单幅图像超分辨率重建方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN113379597A (zh) | 人脸超分辨率重构方法 | |
CN113343941A (zh) | 一种基于互信息相似度的零样本动作识别方法及系统 | |
Xue et al. | A novel attention enhanced residual-in-residual dense network for text image super-resolution | |
CN117612266B (zh) | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN103632357B (zh) | 一种基于光照分离的图像超分辨率增强方法 | |
CN111814543B (zh) | 深度视频对象修复篡改检测方法 | |
CN115376178A (zh) | 基于域风格滤除的未知域行人重识别方法及系统 | |
CN113139496A (zh) | 一种基于时序多尺度融合的行人重识别方法及系统 | |
Xiu et al. | Double discriminative face super-resolution network with facial landmark heatmaps | |
CN114511787A (zh) | 一种基于神经网络的遥感图像地物信息生成方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |