CN112712042A - 嵌入关键帧提取的行人重识别端到端网络架构 - Google Patents

嵌入关键帧提取的行人重识别端到端网络架构 Download PDF

Info

Publication number
CN112712042A
CN112712042A CN202110003744.9A CN202110003744A CN112712042A CN 112712042 A CN112712042 A CN 112712042A CN 202110003744 A CN202110003744 A CN 202110003744A CN 112712042 A CN112712042 A CN 112712042A
Authority
CN
China
Prior art keywords
key frame
identification
extraction unit
pedestrian
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110003744.9A
Other languages
English (en)
Other versions
CN112712042B (zh
Inventor
李耶
殷光强
李超
王治国
王春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110003744.9A priority Critical patent/CN112712042B/zh
Publication of CN112712042A publication Critical patent/CN112712042A/zh
Application granted granted Critical
Publication of CN112712042B publication Critical patent/CN112712042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了嵌入关键帧提取的行人重识别端到端网络架构,按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元,其中,征提取单元,用于行人特征提取;关键帧提取单元,用于关键帧的提取;识别单元,用于身份识别并证明关键帧的有效性;在特征提取单元中输入样本由多组统一为供电张数的视频片段所组成,在关键帧提取单元的设置上,采用两个卷积层、一个池化层和一个全连接层所构成的神经网络并采用两者损失函数进行loss的计算,本发明的实施,能够使用重识别的效果的优劣来反映提取关键帧的好坏。

Description

嵌入关键帧提取的行人重识别端到端网络架构
技术领域
本发明涉及计算机视觉领域中的行人重识别技术领域,具体的说,是嵌入关键帧提取的行人重识别端到端网络架构。
背景技术
Person Re-identification(Person ReID)主要是从不同摄像头中分辨出(distinguishing)行人身份(person identity),旨在弥补目前固定的摄像头的视觉局限,并可与行人检测和行人跟踪技术相结合,可广泛应用于智能视频监控(intelligent videosurveillance)、智能安保(intelligent security)等领域。这已经成为计算机视觉领域十分重要的一项工作。
但是,ReID是一个具有挑战性的问题。由于同一个行人在不同摄像头下的角度朝向不同,同时不同背景下的色调和饱和度也不同,而且有些不同ID(identity)的行人具有极其相似的特征,所以,仅利用单一图像信息进行行人重识别很难取得飞跃性的突破。近些年来基于视频的ReID方法因为不仅包含图像的空间信息,同时还包含时间维上的动态信息,所以逐渐受到重视。
基于视频的ReID方法需要抽取时间维度的信息,即需要网络的输入为图片帧序列(frame sequence),然而不同ID(identity)的图片帧序列(frame sequence)长度不等,随之而来的一个很重要的问题是选取哪些帧输入到网络,同时又怎么证明选取帧能够最好的提取样本的特征。目前一些研究对所有帧统一处理,采用random和evenly等方式挑选出帧,输入到网络中进行特征提取,这种方式没有加入任何的人为干预,很多情况下会导致选取的帧相似性极大,对网络输入造成冗余;另外的研究采用Cluster以及Frame difference等方式选出帧,然后输入到网络中进行特征提取,这种方式虽然人为提取了关键帧,但是没有将关键帧挑选和行人重识别任务相关联,导致无法及时判断选取的关键帧是否对行人重识别任务有效。
所以对帧序列中一些关键帧的提取是非常有必要的。它不仅能够使得信息冗余达到较低的水平,还能有效地反映改序列的信息,以达到增强输入的作用。提取关键帧在动作识别中应用非常广泛,但是却没有一个权威的指标去衡量关键帧提取的质量。
现有技术针对视频流进行行人重实别的方法,如一种使用随机或者均匀抽取视频数据集中的方法,并利用一种名为temporal pooling的方法来对行人进行识别。该方法共分为三部分从上到下依次顺序为:
1、关键帧提取单元
此部分是处于数据的预处理部分,实现关键帧的提取。首先将源数据(即多段长度不定视频片段)进行抽样。此部分的方法主要应用了两种方法:随机抽取、均匀抽取,之后将抽取关键帧通过特定的采样方法(即若是一组为32张图片,则对8个不同摄像头下的视频片段中抽样4张图片作为输入,共32张图片)划分为一组以方便后面的损失计算。最后将这些帧组成一个批次加入后面的特征提取单元。
2、特征提取单元
这个部分采用去掉了最后两层的ResNet-50作为基础网络。这个基础网络包含了一个7*7视野的卷积核(Conv1)和一个池化层以及四个残差块。其输入的维度形状为N*T*3*256*128,N代表了批次的数量,T代表每个样本中帧的数量,3代表彩色图像的r,g,b通道,256*128代表输入图像的大小。样本经过特征提取单元后,输出的特征图具有这样的维度:N*T*2048*8*4。
3、识别单元
在识别单元中,应用了temporal pooling方法提取时间维度信息。将特征提取单元的提取的深度特征输入到识别单元,利用这些帧信息来进行重识别任务。识别单元包括时间池化层(temporal pooling)和一个全连接层。时间池化层用于融合每个帧序列中帧信息,以达到提取时间维信息的作用。具体公式如下:
Figure BDA0002882744020000031
公式中c代表了一个ID,也就是只展示了一个ID的特征融合过程。其实是需要对所有ID的行人特征做融合的。最后,将融合后的特征输入到全连接层进行身份的识别和分类;之后不断优化整个网络以训练一个较好的模型。
发明内容
本发明的目的在于提供嵌入关键帧提取的行人重识别端到端网络架构,使用重识别的效果的优劣来反映提取关键帧的好坏。
本发明通过下述技术方案实现:嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,为使用重识别的效果的优劣来反映提取关键帧的好坏,特别采用下述设置方式:所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。
其中,特征提取单元,用于行人特征提取;
关键帧提取单元,用于关键帧的提取;
识别单元,用于身份识别并证明关键帧的有效性。
进一步的为更好地实现本发明,特别采用下述设置方式:所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络,且改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,四个小模块分别设置有3个、4个、6个、3个残差模块。
进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。
进一步的为更好地实现本发明,特别采用下述设置方式:所述输入样本包括统一采用固定张数(优选为12张)视频图像为一组的视频片段,且输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小;输入样本经过特征提取单元后,输出的特征图具有的维度为:N*T*2048*8*4。
已经得到特征提取单元提取的特征图F,且F∈RN×T×2048×8×4。由于关键帧的关键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分类任务(即基于T维度的分类任务)。
针对关键帧挑选的小分类任务,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签Liji∈N,j∈T。
基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
Figure BDA0002882744020000051
即得输入样本的关键帧集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧。
在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
Figure BDA0002882744020000052
进一步的为更好地实现本发明,特别采用下述设置方式:所述识别单元包括一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元。
其中,在识别单元中,
triplet loss计算loss的具体计算公式为:
Figure BDA0002882744020000053
交叉熵损失函数计算loss的具体计算公式为:
Figure BDA0002882744020000061
对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每个ID中的视频片段数量,y代表行人的ID;
则行人重识别端到端网络最终的损失函数为:
LALL=Losskf+Lossids+Losstri
进一步的为更好地实现本发明,特别采用下述设置方式:所述temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:
Figure BDA0002882744020000062
公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明通过该端到端网络可以及时反馈关键帧提取的效果。
(2)本发明结合了关键帧提取与行人重识别任务,关键帧的提取对行人重识别的任务有促进作用。
(3)本发明以行人帧序列作为输入,可以提取行人时间和空间维度特征。
附图说明
图1为本发明所述的行人重识别端到端网络架构图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
术语解释:
Video Sequence:视频序列;
Conv Net:卷积网络;;
Label:行人ID标签;
Cluster:聚类;
Conv:卷积;
Fc:网络模型全卷积层;
Softmax:得分归一化算法;
Key Frame ID:关键帧的ID标签;
Temporal Pooling:时间维度的特征融合操作。
实施例1:
本发明设计出嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,为使用重识别的效果的优劣来反映提取关键帧的好坏,特别采用下述设置方式:所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。
其中,特征提取单元,用于行人特征提取;
关键帧提取单元,用于关键帧的提取;
识别单元,用于身份识别并证明关键帧的有效性。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络,且改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,四个小模块分别设置有3个、4个、6个、3个残差模块。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述输入样本包括统一采用固定张数(优选为12张)视频图像为一组的视频片段,且输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段帧序列长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小;输入样本经过特征提取单元后,输出的特征图具有的维度为:N*T*2048*8*4。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,已经得到特征提取单元提取的特征图F,且F∈RN×T×2048×8×4。由于关键帧的关键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分类任务(即基于T维度的分类任务)。
针对关键帧挑选的小分类任务,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签Liji∈N,j∈T。
基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
Figure BDA0002882744020000104
即得输入样本的关键帧集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧。
在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
Figure BDA0002882744020000101
实施例7:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述识别单元包括一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元。
其中,在识别单元中,
triplet loss计算loss的具体计算公式为:
Figure BDA0002882744020000102
交叉熵损失函数计算loss的具体计算公式为:
Figure BDA0002882744020000103
对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每个ID中的视频片段数量,y代表行人的ID;
则行人重识别端到端网络最终的损失函数为:
LALL=Losskf+Lossids+Losstri
实施例8:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述temporalpooling层进行时间维度上的特征融合时,具体计算公式如下:
Figure BDA0002882744020000111
公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
实施例9:
嵌入关键帧提取的行人重识别端到端网络架构,如图1所示,整个网络架构与现有技术一样分为关键帧提取单元、特征提取单元、识别单元三个单元,但与现有技术在设置顺序上和应用方法上存在本质的不同,其为使用重识别的效果的优劣来反映提取关键帧的好坏,该行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。
图1中,
(a)为特征提取单元,用于行人特征提取;
(b)为关键帧提取单元,用于关键帧的提取;
(c)为识别单元,用于身份识别并证明关键帧的有效性。
所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络。
该技术方案在应用方法上,就输入样本与现有技术亦存在本质的不同,其中,输入样本由多组视频片段所组成,每一组视频片段统一成12张,视频中不够12张的使用重复的补全;在该实施例中,选取了8个不同行人的视频片段;所述基础网络采用去掉最后两层(即全连接层)的ResNet-50而得到的改进的ResNet-50神经网络,该改进的ResNet-50神经网络包括7*7核的卷积层(Conv1)、池化层(maxpooling)以及四个小模块,该四个小模块分别设置有3个、4个、6个、3个残差模块。
其中,四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层(BN层)、3*3核的卷积层、BN层和1*1核的卷积层。
在实施时,输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小;输入样本经过特征提取单元后,输出的特征图具有的维度为:N*T*2048*8*4。
已经得到特征提取单元提取的特征图F,且F∈RN×T×2048×8×4。由于关键帧的关键在于这些帧彼此之间相似度比较小,则完全可以将关键帧提取的任务抽象成一个分类任务。相对于ReID的识别的大分类任务(即基于N维度的分类任务)来说,关键帧的挑选为小分类任务(即基于T维度的分类任务)。
针对关键帧挑选的小分类任务,如图1中(b)所示,在解决标签生成的问题,优选使用层次聚类传统算法来生成对应视频片段中每个ID下的每一帧Fiji∈N,j∈T,对应的标签Liji∈N,j∈T。
基于此,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
所述关键帧提取单元进行关键帧提取过程为Lij=C(Fij)=K i∈N,j∈T,包括下述步骤:
1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,且
Figure BDA0002882744020000131
其,k为图像序列某一帧,K为图像序列所有帧ID集合,即得输入样本的关键帧集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧,则可以将关键帧输入到识别单元中进行身份识别并证明关键帧的有效性。
在关键帧提取单元中,利用交叉熵损失函数训练关键帧提取网络时,采用的交叉熵损失函数计算公式为:
Figure BDA0002882744020000132
在识别单元中个,应用了temporal pooling方法提取时间维度信息。使用时将关键帧提取单元挑选的关键帧输入到识别单元,利用这些帧信息来进行行人重识别,其中,识别单元包括一个temporal pooling层和一个全连接层的结构(如图1的(b)所示),所述temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:
Figure BDA0002882744020000133
公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporalpooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用tripletloss和交叉熵损失函数计算loss,不断优化识别单元。
其中,在识别单元中,
triplet loss计算loss的具体计算公式为:
Figure BDA0002882744020000141
交叉熵损失函数计算loss的具体计算公式为:
Figure BDA0002882744020000142
对于第i个身份的第a个片段的特征用Fi,a表示,Fi,p,Fi,n分别表示与Fi,a同一行人ID下的特征与不同行人ID下的特征。D是特征之间的欧式距离。P代表行人ID数量,K代表每个ID中的视频片段数量,y代表行人的ID;
则行人重识别端到端网络最终的损失函数为:
LALL=Losskf+Lossids+Losstri
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (8)

1.嵌入关键帧提取的行人重识别端到端网络架构,包括关键帧提取单元、特征提取单元、识别单元,其特征在于:所述行人重识别端到端网络架构按照数据处理顺序从上自下顺次设置特征提取单元、关键帧提取单元和识别单元。
2.根据权利要求1所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述特征提取单元包括输入样本及用于对输入样本进行特征提取的基础网络,所述基础网络采用改进的ResNet-50神经网络,且改进的ResNet-50神经网络包括7*7核的卷积层、池化层以及四个小模块,四个小模块分别设置有3个、4个、6个、3个残差模块。
3.根据权利要求2所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:四个小模块中的残差模块采用统一形式,皆设置有一个1*1核的卷积层、归一化层、3*3核的卷积层、BN层和1*1核的卷积层。
4.根据权利要求2所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述输入样本包括统一采用固定张数视频图像为一组的视频片段,且输入样本的维度为:N*T*3*256*128;其中,N代表一组输入样本中包含视频片段的数量,T代表每个视频片段中帧序列长度,3代表彩色图像的r、g、b通道,258*128表示输入的视频图像大小。
5.根据权利要求1~4任一项所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述关键帧提取单元采用两个卷积层、一个池化层和一个全连接层所构成的神经网络。
6.根据权利要求5所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述关键帧提取单元进行关键帧提取包括下述步骤:
1)将特征提取单元所提取的特征图F输入到关键帧提取单元,得到关键帧提取单元的池化层后的特征图输出F’;
2)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
3)将伪标签作为真实标签,利用交叉熵损失函数训练关键帧提取网络;经多次迭代后完成关键帧提取网络的训练,并将每一次迭代训练时关键帧提取网络最后的全连接层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征,组成集合F’k,即得输入样本的关键帧集合。
7.根据权利要求1~4任一项所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述识别单元包括一个temporal pooling层和一个全连接层,且识别单元用于身份识别并证明关键帧的有效性具体为:首先利用temporal pooling层融合时间维度上的特征,而后将融合后的特征输入到全连接层,利用triplet loss和交叉熵损失函数计算loss,不断优化识别单元。
8.根据权利要求7所述的嵌入关键帧提取的行人重识别端到端网络架构,其特征在于:所述temporal pooling层进行时间维度上的特征融合时,具体计算公式如下:
Figure FDA0002882744010000021
公式中c代表了一个ID,T代表一段序列中帧数,ffuse代表融合的特征,t代表从1到T的迭代变量。
CN202110003744.9A 2021-01-04 2021-01-04 嵌入关键帧提取的行人重识别端到端网络架构 Active CN112712042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003744.9A CN112712042B (zh) 2021-01-04 2021-01-04 嵌入关键帧提取的行人重识别端到端网络架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003744.9A CN112712042B (zh) 2021-01-04 2021-01-04 嵌入关键帧提取的行人重识别端到端网络架构

Publications (2)

Publication Number Publication Date
CN112712042A true CN112712042A (zh) 2021-04-27
CN112712042B CN112712042B (zh) 2022-04-29

Family

ID=75548205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003744.9A Active CN112712042B (zh) 2021-01-04 2021-01-04 嵌入关键帧提取的行人重识别端到端网络架构

Country Status (1)

Country Link
CN (1) CN112712042B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
CN110245551A (zh) * 2019-04-22 2019-09-17 中国科学院深圳先进技术研究院 一种多草工况下田间作物的识别方法
CN110490080A (zh) * 2019-07-22 2019-11-22 西安理工大学 一种基于图像的人体跌倒判别方法
WO2020083831A1 (en) * 2018-10-22 2020-04-30 Future Health Works Ltd. Computer based object detection within a video or image
CN111091046A (zh) * 2019-10-28 2020-05-01 北京灵鹦科技有限公司 一种基于机器视觉的用户不良坐姿矫正系统
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111382677A (zh) * 2020-02-25 2020-07-07 华南理工大学 基于3d注意力残差模型的人体行为识别方法及系统
CN111598026A (zh) * 2020-05-20 2020-08-28 广州市百果园信息技术有限公司 动作识别方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020083831A1 (en) * 2018-10-22 2020-04-30 Future Health Works Ltd. Computer based object detection within a video or image
CN110245551A (zh) * 2019-04-22 2019-09-17 中国科学院深圳先进技术研究院 一种多草工况下田间作物的识别方法
CN110070066A (zh) * 2019-04-30 2019-07-30 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
CN110490080A (zh) * 2019-07-22 2019-11-22 西安理工大学 一种基于图像的人体跌倒判别方法
CN111091046A (zh) * 2019-10-28 2020-05-01 北京灵鹦科技有限公司 一种基于机器视觉的用户不良坐姿矫正系统
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111382677A (zh) * 2020-02-25 2020-07-07 华南理工大学 基于3d注意力残差模型的人体行为识别方法及系统
CN111598026A (zh) * 2020-05-20 2020-08-28 广州市百果园信息技术有限公司 动作识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ACHMAD RIZAL: ""Classification of Normal and Abnormal Heart Sound using Continuous Wavelet Transform and ResNet-50"", 《TECHNOLOGY REPORTS OF KANSAI UNIVERSITY》 *
周文: ""人体行为时空特征提取与识别算法设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112712042B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Bai et al. Group-sensitive triplet embedding for vehicle reidentification
Fu et al. Self-similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN110427813B (zh) 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
Chen et al. Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN109508663B (zh) 一种基于多层次监督网络的行人重识别方法
CN111325115B (zh) 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111126360A (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN108509854B (zh) 一种基于投影矩阵约束结合判别字典学习的行人再识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN108009493B (zh) 基于动作增强的人脸防欺骗识别方法
CN111738143A (zh) 一种基于期望最大化的行人重识别方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
Li et al. Pedestrian re-identification based on tree branch network with local and global learning
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN112712042B (zh) 嵌入关键帧提取的行人重识别端到端网络架构
CN115393788B (zh) 一种基于增强全局信息注意力的多尺度监控行人重识别方法
Liang et al. Deep hashing with multi-task learning for large-scale instance-level vehicle search
CN111144233B (zh) 基于toim损失函数的行人重识别方法
Palanimeera et al. Transfer learning with deep representations is used to recognition yoga postures
Liu et al. SYRER: Synergistic Relational Reasoning for RGB-D Cross-modal Re-identification
Zamprogno et al. Video-based convolutional attention for person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant