CN116416649A - 一种基于多尺度分辨率对齐的视频行人重识别方法 - Google Patents

一种基于多尺度分辨率对齐的视频行人重识别方法 Download PDF

Info

Publication number
CN116416649A
CN116416649A CN202310407317.6A CN202310407317A CN116416649A CN 116416649 A CN116416649 A CN 116416649A CN 202310407317 A CN202310407317 A CN 202310407317A CN 116416649 A CN116416649 A CN 116416649A
Authority
CN
China
Prior art keywords
representing
video
scale
network
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310407317.6A
Other languages
English (en)
Inventor
路小波
冉智丹
刘维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310407317.6A priority Critical patent/CN116416649A/zh
Publication of CN116416649A publication Critical patent/CN116416649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多尺度分辨率对齐的视频行人重识别方法,包括:构造多尺度的行人视频片段;将不同尺度的视频片段输入到有层次的多分支网络中提取特征;将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;构造交叉熵损失、三元组损失和相互信息损失来优化多分支网络;重复执行前述步骤直至模型收敛;训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。本发明充分利用不同空间尺度的行人视频片段中的有效信息,有效提升了识别准确率。

Description

一种基于多尺度分辨率对齐的视频行人重识别方法
技术领域
本发明属于模式识别和图像检索领域,更具体地涉及一种基于多尺度分辨率对齐的视频行人重识别方法。
背景技术
基于视频的行人重识别旨在从多个摄像机中检索出同一关键目标的视频片段。视频行人重识别技术在越来越多的监控相关应用中发挥着至关重要的作用。近年来,基于图像的行人重识别在方法和数据集方面都取得了较大进展。相关的研究大多将注意力放在从单一图像中学习可辨别特征。当关键目标被遮挡或出现较大的视觉外观变化时,基于图像的重识别性能会受到限制。相比之下,通过将多帧视频序列作为输入,基于视频的重识别可以利用更丰富的外观和时间信息。
受益于深度卷积神经网络的发展,视频重识别方法取得了令人振奋的进展。然而,大多数现有的基于视频的模型仅在单一空间尺度上处理关键目标的外表信息。这忽略了行人视频是在多种尺度下获取的事实。
现有的多尺度特征表示学习方法可以别分为两类:
(1)用多尺度卷积流学习特征。
该方法将所有输入图像调整为固定的分辨率,并将其送入到一个具有不同分辨率水平的过滤器的同一网络中。但这种设计忽略了其它不同尺度的潜在有用信息。
(2)从多尺度输入中学习特征。
该方法采用多分支网络从不同尺度的输入中学习特征。这类方法学习到的特征试图做到尺度不变,即输入对象的尺度变化被特征中的尺度变化所抵消。这样一来,实现跨尺度的信息交互并非易事,因为不同尺度分支在相同网络阶段中的特征空间分辨率是不同的。
发明内容
针对上述问题,本发明设计了一种有层次的多分支网络,此网络可以实现尺度间的特征分辨率匹配,以实现跨分支的信息交互,充分利用了不同空间尺度的行人视频片段中的有效信息,从而有效地提升了视频重识别的准确率。
为了达到上述目的,本发明提供如下技术方案:
一种基于多尺度分辨率对齐的视频行人重识别方法,包括以下步骤:
S1、构造多尺度的行人视频片段;
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征;
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;
S4、构造交叉熵损失、三元组损失和互信息损失来优化多分支网络;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
进一步的,所述的步骤S1具体过程如下:
S11、从每个视频序列中随机抽取4帧来形成一个原始的输入视频片段;
S12、将输入视频片段中的图像调整为固定大小;
S13、根据原始输入视频片段来构造多尺度的行人视频片段
Figure BDA0004181936650000021
其中Vs表示原始输入视频片段V的下采样版本,s表示尺度分支的索引号。
进一步的,所述的步骤S2过程如下:
S21、构造多分支网络,网络包含三个前馈子网络分支
Figure BDA0004181936650000022
其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4
S22、在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
Figure BDA0004181936650000023
Figure BDA0004181936650000024
Figure BDA0004181936650000025
Figure BDA0004181936650000026
其中,
Figure BDA0004181936650000027
和/>
Figure BDA0004181936650000028
表示卷积操作,/>
Figure BDA0004181936650000029
和/>
Figure BDA00041819366500000210
表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图;多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
Figure BDA00041819366500000211
Figure BDA00041819366500000212
Figure BDA0004181936650000031
Figure BDA0004181936650000032
其中,
Figure BDA0004181936650000033
和/>
Figure BDA0004181936650000034
表示卷积操作,/>
Figure BDA0004181936650000035
和/>
Figure BDA0004181936650000036
表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图;
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
Figure BDA0004181936650000037
Figure BDA0004181936650000038
其中,Convs表示来自对应分支Bs的卷积块,
Figure BDA0004181936650000039
表示分支Bs中网络阶段Stag es+l提取的中间视频特征图,l表示特征图的索引号。
进一步的,所述的步骤S2中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小。
进一步的,所述的步骤S3过程如下:
S31、将三个尺度分支输出的特征图在时间维度上连接起来:
Figure BDA00041819366500000310
其中,
Figure BDA00041819366500000311
表示第一个分支的输出特征图,/>
Figure BDA00041819366500000312
表示第二个分支的输出特征图,/>
Figure BDA00041819366500000313
表示第三个分支的输出特征图,Fall是一个大小为C×12×H×W的张量,C表示张量的通道数,H表示张量的高,W表示张量的宽;
S32、利用全局平均池化层来生成最终的视频级特征向量:
Figure BDA00041819366500000314
其中,Foutput表示最终的视频级特征向量,fi,j,k表示Fall在(j,k,i)位置的向量,j,k,i分别表示三维坐标的X值,Y值和Z值。
进一步的,所述的步骤S4中构造损失函数来优化多分支网络,损失函数如下:
Figure BDA00041819366500000315
其中,
Figure BDA00041819366500000316
表示总体的损失函数,/>
Figure BDA00041819366500000317
表示交叉熵损失函数,/>
Figure BDA00041819366500000318
表示三元组损失函数,/>
Figure BDA00041819366500000319
表示互信息损失函数,λ1和λ2表示调节参数。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明提出了一种基于视频的行人重识别框架,该框架从具有不同空间分辨率的输入视频片段中学习有辨别性和鲁棒性的视频特征表示,有效提高了视频行人重识别的准确率。
(2)本发明提出了一种有层次的多分支网络,该网络实现了尺度间的特征大小匹配,从而实现分支间的信息交互。
(3)本发明设计了空间信息交互模块和多尺度时间信息交互模块,这两个模块实现了多个特定尺度分支间的空间和时间的信息交互。
附图说明
图1为本发明方法的流程图;
图2是本发明的多分支网络的示意图;
图3是本发明的空间信息交互模块和多尺度时间信息交互模块的示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本实施例提供一种基于多尺度分辨率对齐的视频行人重识别方法,其流程如图1所示,该方法具体实现包括以下步骤:
S1、构造多尺度的行人视频片段,具体包括如下子步骤:
S11、从相机拍摄的每个视频序列中随机抽取4帧来形成一个原始的输入视频片段。
S12、将所有桢图像的分辨率调整为256像素×128像素。
S13、根据原始输入视频片段来构造多尺度的行人视频片段
Figure BDA0004181936650000041
其中,Vs表示原始输入视频片段V的下采样版本,s表示尺度分支的索引号,V0中的图像分辨率为256像素×128像素,V1中的图像分辨率为128像素×64像素,V2中的图像分辨率为64像素×32像素。
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征,具体包括如下子步骤:
S21、构造多分支网络,网络包含三个前馈子网络分支
Figure BDA0004181936650000042
其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4
S22、参考图2和图3(图2中画出了第三个网络阶段多个交互模块架构图,本发明分支网络中第二个网络阶段架构与第三个网络阶段相同),在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
Figure BDA0004181936650000051
Figure BDA0004181936650000052
Figure BDA0004181936650000053
Figure BDA0004181936650000054
其中,
Figure BDA0004181936650000055
和/>
Figure BDA0004181936650000056
表示卷积操作,/>
Figure BDA0004181936650000057
和/>
Figure BDA0004181936650000058
表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图。多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
Figure BDA0004181936650000059
Figure BDA00041819366500000510
Figure BDA00041819366500000511
Figure BDA00041819366500000512
其中,
Figure BDA00041819366500000513
和/>
Figure BDA00041819366500000514
表示卷积操作,/>
Figure BDA00041819366500000515
和/>
Figure BDA00041819366500000516
表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图。
本发明中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小,比如0号分支中第三网络阶段输出的特征图和1号分支中第三网络阶段输出的特征图。
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
Figure BDA00041819366500000517
Figure BDA00041819366500000518
其中,Convs表示来自对应分支Bs的卷积块,
Figure BDA00041819366500000519
表示分支Bs中网络阶段Stages+l提取的中间视频特征图,l表示特征图的索引号。
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量,具体包括如下子步骤:
S31、将三个尺度分支输出的特征图在时间维度上连接起来:
Figure BDA00041819366500000520
其中,
Figure BDA00041819366500000521
表示第一个分支的输出特征图,/>
Figure BDA00041819366500000522
表示第二个分支的输出特征图,/>
Figure BDA00041819366500000523
表示第三个分支的输出特征图,Fall是一个大小为C×12×H×W的张量,C表示张量的通道数,H表示张量的高,W表示张量的宽;
S32、利用全局平均池化层来生成最终的视频级特征向量:
Figure BDA0004181936650000061
其中,Foutput表示最终的视频级特征向量,fi,j,k表示Fall在(j,k,i)位置的向量,j,k,i分别表示三维坐标的X值,Y值和Z值;
S4、构造损失函数来优化多分支网络;
Figure BDA0004181936650000062
其中,
Figure BDA0004181936650000063
表示总体的损失函数,/>
Figure BDA0004181936650000066
表示交叉熵损失函数,/>
Figure BDA0004181936650000064
表示三元组损失函数,/>
Figure BDA0004181936650000065
表示互信息损失函数,λ1和λ2表示调节参数;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,包括以下步骤:
S1、构造多尺度的行人视频片段;
S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征;
S3、将各个尺度分支输出的特征图在时间维度上连接起来,并利用全局平均池化层来生成最终的视频级特征向量;
S4、构造交叉熵损失、三元组损失和互信息损失来优化多分支网络;
S5、重复执行步骤S1-S4,直至模型收敛;
S6、训练结束之后,利用多分支网络从多尺度的行人视频片段中提取特征向量,并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离,最终按照欧式距离从小到大进行排序得到行人重识别结果。
2.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S1具体过程如下:
S11、从每个视频序列中随机抽取4帧来形成一个原始的输入视频片段;
S12、将输入视频片段中的图像调整为固定大小;
S13、根据原始输入视频片段来构造多尺度的行人视频片段
Figure FDA0004181936640000011
其中Vs表示原始输入视频片段V的下采样版本,s表示尺度分支的索引号。
3.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S2过程如下:
S21、构造多分支网络,网络包含三个前馈子网络分支
Figure FDA0004181936640000012
其中Bs负责处理对应的视频片段Vs,B0的骨干网络为ResNet-50的四个网络阶段,即Stage1~Stage4,每个网络阶段由多个残差块组成,B1的骨干网络为ResNet-50的后三个网络阶段,即Stage2~Stage4,B2的骨干网络为ResNet-50的后两个网络阶段,即Stage3~Stage4
S22、在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块,其中,空间信息交互模块的具体计算过程为:
Figure FDA0004181936640000013
Figure FDA0004181936640000014
Figure FDA0004181936640000015
Figure FDA0004181936640000016
其中,
Figure FDA0004181936640000017
和/>
Figure FDA0004181936640000018
表示卷积操作,/>
Figure FDA0004181936640000019
和/>
Figure FDA00041819366400000110
表示矩阵维度变换操作,Xsi表示输入到空间信息模块中的视频特征图,E1,E2和E3表示空间信息模块中间产生的特征图,Ysi表示空间信息模块输出的特征图;多尺度时间信息交互模块的具体计算过程为:
Xmsti=[X0,X1,X2]
Figure FDA0004181936640000021
Figure FDA0004181936640000022
Figure FDA0004181936640000023
Figure FDA0004181936640000024
其中,
Figure FDA0004181936640000025
和/>
Figure FDA0004181936640000026
表示卷积操作,/>
Figure FDA0004181936640000027
和/>
Figure FDA0004181936640000028
表示矩阵维度变换操作,X0,X1和X2表示三个尺度分支中空间大小相同的特征图,[·]表示时间维度上的连接,Xmsti表示输入到多尺度时间信息交互模块中的视频特征图,Z1,Z2和Z3表示多尺度时间信息交互模块中间产生的特征图,Ymsti表示空间信息模块输出的特征图;
S23、将多尺度的行人视频片段输入到多分支网络中提取特征,具体过程为:
Figure FDA0004181936640000029
Figure FDA00041819366400000210
其中,Convs表示来自对应分支Bs的卷积块,
Figure FDA00041819366400000211
表示分支Bs中网络阶段Stages+l提取的中间视频特征图,l表示特征图的索引号。
4.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S2中,不同尺度分支在同一网络阶段的特征图具有相同的空间大小。
5.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S3过程如下:
S31、将三个尺度分支输出的特征图在时间维度上连接起来:
Figure FDA00041819366400000212
其中,
Figure FDA00041819366400000213
表示第一个分支的输出特征图,/>
Figure FDA00041819366400000214
表示第二个分支的输出特征图,/>
Figure FDA00041819366400000215
表示第三个分支的输出特征图,Fall是一个大小为C×12×H×W的张量,C表示张量的通道数,H表示张量的高,W表示张量的宽;
S32、利用全局平均池化层来生成最终的视频级特征向量:
Figure FDA00041819366400000216
其中,Foutput表示最终的视频级特征向量,fi,j,k表示Fall在(j,k,i)位置的向量,j,k,i分别表示三维坐标的X值,Y值和Z值。
6.根据权利要求1所述的基于多尺度分辨率对齐的视频行人重识别方法,其特征在于,所述的步骤S4中构造损失函数来优化多分支网络,损失函数如下:
Figure FDA00041819366400000217
其中,
Figure FDA0004181936640000031
表示总体的损失函数,/>
Figure FDA0004181936640000032
表示交叉熵损失函数,/>
Figure FDA0004181936640000033
表示三元组损失函数,/>
Figure FDA0004181936640000034
表示互信息损失函数,λ1和λ2表示调节参数。
CN202310407317.6A 2023-04-14 2023-04-14 一种基于多尺度分辨率对齐的视频行人重识别方法 Pending CN116416649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310407317.6A CN116416649A (zh) 2023-04-14 2023-04-14 一种基于多尺度分辨率对齐的视频行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310407317.6A CN116416649A (zh) 2023-04-14 2023-04-14 一种基于多尺度分辨率对齐的视频行人重识别方法

Publications (1)

Publication Number Publication Date
CN116416649A true CN116416649A (zh) 2023-07-11

Family

ID=87051120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310407317.6A Pending CN116416649A (zh) 2023-04-14 2023-04-14 一种基于多尺度分辨率对齐的视频行人重识别方法

Country Status (1)

Country Link
CN (1) CN116416649A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612266A (zh) * 2024-01-24 2024-02-27 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612266A (zh) * 2024-01-24 2024-02-27 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法
CN117612266B (zh) * 2024-01-24 2024-04-19 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法

Similar Documents

Publication Publication Date Title
Wang et al. Video modeling with correlation networks
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110866953A (zh) 地图构建方法及装置、定位方法及装置
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN113807340B (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN116416649A (zh) 一种基于多尺度分辨率对齐的视频行人重识别方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN113673354A (zh) 一种基于上下文信息与联合嵌入的人体关键点检测方法
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN110110775A (zh) 一种基于超连接网络的匹配代价计算方法
CN114170304A (zh) 一种基于多头自注意力和置换注意力的相机定位方法
CN112949765A (zh) 融合局部和全局信息的图像匹配方法
CN111079585B (zh) 图像增强结合伪孪生卷积神经网络的行人再识别方法
CN117373062A (zh) 一种基于联合学习的实时端到端跨分辨率行人重识别方法
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
CN115601791B (zh) 基于Multiformer及离群样本重分配的无监督行人重识别方法
CN112446245A (zh) 一种基于运动边界小位移的高效运动表征方法及装置
CN113283423A (zh) 基于生成网络的自然场景扭曲文本图像矫正方法及系统
CN116612385B (zh) 基于深度高分辨率关系图卷积的遥感影像多类信息提取方法与系统
Chen et al. Fast and Accurate Homography Estimation Using Extendable Compression Network
JP7285479B2 (ja) 画像認識装置、及び画像認識プログラム
CN116645726B (zh) 利用三维人体恢复进行时空双分支融合的行为识别方法及系统
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination