CN113627266B - 基于Transformer时空建模的视频行人重识别方法 - Google Patents

基于Transformer时空建模的视频行人重识别方法 Download PDF

Info

Publication number
CN113627266B
CN113627266B CN202110798721.1A CN202110798721A CN113627266B CN 113627266 B CN113627266 B CN 113627266B CN 202110798721 A CN202110798721 A CN 202110798721A CN 113627266 B CN113627266 B CN 113627266B
Authority
CN
China
Prior art keywords
video
network
space
frame
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110798721.1A
Other languages
English (en)
Other versions
CN113627266A (zh
Inventor
种衍文
陈梦成
潘少明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110798721.1A priority Critical patent/CN113627266B/zh
Publication of CN113627266A publication Critical patent/CN113627266A/zh
Application granted granted Critical
Publication of CN113627266B publication Critical patent/CN113627266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于Transformer时空建模的视频行人重识别方法。首先利用图像级特征网络ResNet50提取到帧级特征后,通过位置编码层给帧级特征加上位置信息以最大程度地保证视频帧的序列信息,然后将重编码后的特征经过Transformer网络完成时空建模,进而提取到更具判别性的时空特征。本发明通过给帧级特征加上位置编码,可充分利用视频片段的时序信息;利用Transformer结构将输入特征映射到三个空间进行特征融合,从而提取到更加鲁棒的时空特征,提高了网络的性能;提出了一种端到端的网络模型,实现了输入到模型到输出的应用过程,降低了基于视频的行人重识别网络模型的训练难度。

Description

基于Transformer时空建模的视频行人重识别方法
技术领域
本发明属于行人重识别领域,特别是涉及一种基于Transformer时空建模的视频行人重识别方法。
背景技术
行人重识别作为计算机视觉领域的热点问题,其主要任务是利用图像处理的相关技术完成对不同相机下图像或视频数据中特定行人的检索。近些年来,由于公共安全需求和监控网络需求的日益提高,对于行人重识别的关注及要求也随之增长。然而,在以监控网络为主的实际应用场景中,当前的主流方法还是人工分析视频数据流以提取目标信息,这种方法在面对海量数据集时会存在效率和准确率上的局限性。由此,对行人重识别技术的研究已成为一个亟待解决的问题。
实际上,行人重识别领域的工作已在静止图像上进行了广泛而深入的探索,但视频数据却未收获到同等的关注。相比于静止图像而言,视频数据可以采用更自然的方式进行重识别任务,也更符合实际应用场景。同时,视频数据包含了更丰富的运动信息,这对行人重识别的任务也是极有帮助的。然而,基于视频的行人重识别也存在着一些颇具挑战性的问题,例如,难以处理任意长度或不同帧速率的视频序列,难以在待识别的序列中精准构建外观模型,还有最关键的是难以提出一种有效的方法完成帧序列特征的聚合以提取运动信息。
视频行人重识别任务通常是给定一个人的查询视频,在系统数据库中自动化搜索识别目标人物的相关视频。在当前基于深度学习的视频行人重识别方法中,主要有三个模块会对方法效果具有决定性的影响,即图像级特征提取器、用于聚合图像级特征的时序建模模块以及用于训练网络的损失函数。特征提取和损失函数已在基于图像的行人重识别中取得了极大地进展,因此,如何设计聚合图像级特征的时序建模模块以完成运动信息的学习,就成了视频任务的当务之急。在时序建模部分的先前工作中,已经尝试了池化、循环神经网络、时序注意力网络等建模方式,结果显示丢失了时序信息的池化方式反而在时序建模任务中表现得最突出,由此可知,当前的主流时序建模方式未能实现从视频行人重识别中有效提取运动信息,我们需要针对性地提出一种更为鲁棒的时序建模方法。
综上所述,作为一种视频检索任务,在视频提供了丰富时序信息的前提下,如何提取图像级特征并根据其间的关系完成帧级特征聚合以实现对目标运动信息的建模即成为基于视频的行人重识别的关键。
发明内容
本发明针对现有技术的不足,提出了一种基于Transformer时空建模的视频行人重识别方法。首先利用图像级特征网络ResNet50提取到帧级特征后,通过位置编码层给帧级特征加上位置信息以最大程度地保证视频帧的序列信息,然后将重编码后的特征经过Transformer网络完成时空建模,进而提取到更具判别性的时空特征。
为了达到上述目的,本发明提供的技术方案是一种基于Transformer时空建模的视频行人重识别方法,包括以下步骤:
步骤1,对行人重识别视频数据集进行视频预处理,得到便于训练的视频片段;
步骤2,使用ResNet50网络提取步骤1中预处理后的视频片段的帧级特征;
步骤3,构建基于Transformer的时空建模网络,包括位置编码模块和Transformer模块;
步骤3.1,构建位置编码模块,用于给步骤2提取的帧级特征加上位置信息,以最大程度地保证视频帧的序列信息;
步骤3.2,构建Transformer模块,用于聚合帧级特征以实现序列信息的运动建模,完成时空特征的提取;
步骤4,用步骤3.1得到的加上位置信息的帧级特征训练基于Transformer的时空建模网络;
步骤4.1,设置训练参数;
步骤4.2,使用softmax交叉熵损失和三元组损失共同对网络进行优化;
步骤5,对待查询的视频和视频库做视频预处理,将其转化为可计算的张量数据;
步骤6,将步骤5转化得到的张量数据输入到训练后的Transformer时空建模网络模型,提取到有效的时空特征表示;
步骤7,计算目标视频特征与视频库数据特征之间的欧几里得距离,根据距离从小到大对视频库中查询到的结果进行排序,匹配到对应的视频。
而且,所述步骤1中视频预处理是首先将Mars视频数据集的视频大小调整为4×3×224×112,分别对应着batchsize×帧数、通道数、高度、宽度,然后利用随机翻转、随机裁剪等方法进行数据增强,最后通过Pytorch内置函数把调整后的视频转化为Pytorch框架可以处理的张量数据。
而且,所述步骤2中是将步骤1中预处理后的视频片段以帧的形式输入到ResNet50网络中,并去掉ResNet50网络的最后两层,网络输出结果作为提取到的帧级特征。
而且,所述步骤3.1中构建位置编码模块包括以下几个步骤:
步骤3.1.1,通过二维平均池化层提取步骤2中得到的特征图的显式信息,将特征图F∈RB×C×H×W转换为F′∈Rb×T×D,其中B、C、H和W分别表示batchsize×帧数、特征图的通道、高度和宽度,b、T和D分别表示batchsize、序列帧数和通道数;
步骤3.1.2,利用PE层(Positional Encoding)为F′加入位置信息,PE的计算公式如下:
式中,pos表示当前帧在序列中的位置,i表示PE的维度,取值范围为[0,...,D/2]。
而且,所述步骤3.2中构建的Transformer模块包含多头自注意力(multi-headself-attention)模块、前向传播网络(feedforwardnetwork)模块和Add&Norm模块,其中Add表示残差连接(Residual Connection),用于防止网络退化,Norm表示图层归一化(LayerNormalization),用于对每一层的激活值进行归一化,具体包括以下几个步骤:
步骤3.2.1,将步骤3.1得到的加上位置信息的帧级特征作为Transformer模块的输入,分别经过变换矩阵Wq、Wk、Wv得到Q、K、V三个矩阵,其中矩阵Q表示待查询的视频信息,矩阵K表示视频中的关键信息,矩阵V表示视频中的附加信息,计算公式如下:
Q=WqF′ (3)
K=WkF′ (4)
V=WvF′ (5)
步骤3.2.2,计算权重矩阵O,并经过前向传播网络模块和Add&Norm模块得到加权特征A,计算公式如下:
O=Q·K+V (6)
A=LayerNormalization(O+feedforwardNetwork(O)) (7)
步骤3.2.3,将步骤3.2.2得到的加权特征A输入到分类层产生分类预测,分类层为一个输出维度等于行人类别数的全连接层;
步骤3.3.3,利用分类预测与视频标签计算交叉熵损失,再通过反向传播进行网络参数更新。
而且,所述步骤4.1中初始化训练参数包括采用Adam优化器,初始学习率设为0.0003,batch size设为32,训练模型800个周期,每经过200个周期学习率下降十倍,最终得到训练完成的时空建模网络模型权重。
而且,所述步骤4.2中对网络使用softmax交叉熵损失LId和三元组损失LTriplet共同优化,如式(8)和式(9)所示:
式中,ns表示类别数,qi表示每个类别的权重,如果真值为第i类,则qi=1,否则qi=0,zi是身份分类器的输出,表示每个ID标签的预测概率;
式中,X表示训练批次中的视频片段,xa是锚点,xp是与输入视频xa具有相同身份的困难样本,xn是与视频xa具有不同身份的困难样本,f(·)表示视频的特征,是两个视频特征之间的欧式距离,[·]+表示max(0,·),α是余量参数,取经验值;
最终网络损失函数LTotal表示为:
LTotal=λ1×LId2×LTriplet (10)
式中,λ1、λ2是超参数,设定初始值后在训练过程中不断迭代优化得到。
而且,所述步骤5中视频预处理是通过Pytorch内置函数将待查询的视频处理为4×3×224×112的视频片段。
而且,所述步骤6中提取有效的时空特征表示是将待查询视频和视频库数据分别输入到Transformer时空建模网络模型中提取行人特征表示,将Transformer模块输出的2048维特征作为最终的行人特征表示。
与现有技术相比,本发明具有如下优点:(1)本发明将位置编码引入特征提取,在帧级特征提取过程中加入位置信息进行特征融合,较为完整地保留了视频的时序信息;(2)本发明利用Transformer结构将输入特征映射到三个空间进行特征融合,从而提取到更加鲁棒的时空特征,提高了网络的性能;(3)本发明提出了一种端到端的网络模型,实现了输入到模型到输出的应用过程,降低了基于视频的行人重识别网络模型的训练难度。
附图说明
图1为本发明实施例的流程图。
图2为本实施例整体网络模型结构图。
图3为本实施例Transformer模块结构图。
图4为本实施例行人检索结果图。
具体实施方式
本发明提供一种基于Transformer时空建模的视频行人重识别方法,首先利用图像级特征网络ResNet50提取到帧级特征后,通过位置编码层给帧级特征加上位置信息以最大程度地保证视频帧的序列信息,然后将重编码后的特征经过Transformer网络完成时空建模,进而提取到更具判别性的时空特征。
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,对行人重识别视频数据集进行视频预处理,得到便于训练的视频片段。
首先将Mars视频数据集的视频大小调整为4×3×224×112,分别对应着batchsize×帧数、通道数、高度、宽度,然后利用随机翻转、随机裁剪等方法进行数据增强,最后通过Pytorch内置函数把调整后的视频转化为Pytorch框架可以处理的张量数据。
步骤2,使用ResNet50网络提取步骤1预处理后的视频片段的帧级特征。
将预处理后的视频片段以帧的形式输入到ResNet50网络中,并去掉ResNet50网络的最后两层,网络输出结果作为提取到的帧级特征。
步骤3,构建基于Transformer的时空建模网络,包括位置编码模块和Transformer模块。
步骤3.1,构建位置编码模块用于给帧级特征加上位置信息,以最大程度地保证视频帧的序列信息。
步骤3.1.1,通过二维平均池化层提取步骤2中得到的特征图的显式信息,将特征图F∈RB×C×H×W转换为F′∈Rb×T×D,其中B、C、H和W分别表示batchsize×帧数、特征图的通道、高度和宽度,b、T和D分别表示batchsize、序列帧数和通道数。
步骤3.1.2,利用PE层(Positional Encoding)为F′加入位置信息,PE的计算公式如下:
式中,pos表示当前帧在序列中的位置,i表示PE的维度,取值范围为[0,...,D/2]。
步骤3.2,构建Transformer模块用于聚合帧级特征以实现序列信息的运动建模,完成时空特征的提取。Transformer模块包含多头自注意力(multi-head self-attention)模块、前向传播网络(feedforward network)模块和Add&Norm模块,其中Add表示残差连接(Residual Connection),用于防止网络退化,Norm表示图层归一化(LayerNormalization),用于对每一层的激活值进行归一化。
步骤3.2.1,将步骤3.1得到的加上位置信息的帧级特征作为Transformer模块的输入,分别经过变换矩阵Wq、Wk、Wv得到Q、K、V三个矩阵,其中矩阵Q表示待查询的视频信息,矩阵K表示视频中的关键信息,矩阵V表示视频中的附加信息,计算公式如下:
Q=WqF′ (3)
K=WkF′ (4)
V=WvF′ (5)
步骤3.2.2,计算权重矩阵O,并经过前向传播网络模块和Add&Norm模块得到加权特征A,计算公式如下:
O=Q·K+V (6)
A=LayerNormalization(O+feedforwardNetwork(O)) (7)
步骤3.2.3,将步骤3.2.2得到的加权特征A输入到分类层产生分类预测,分类层为一个输出维度等于行人类别数的全连接层。
步骤3.3.3,利用分类预测与视频标签计算交叉熵损失,再通过反向传播进行网络参数更新。
步骤4,用步骤3.1得到的加上位置信息的帧级特征训练基于Transformer的时空建模网络。
步骤4.1,初始化训练参数。
采用Adam优化器,初始学习率设为0.0003,batch size设为32,训练模型800个周期,每经过200个周期学习率下降十倍,最终得到训练完成的行人重识别网络模型权重。
步骤4.2,使用softmax交叉熵损失和三元组损失共同对网络进行优化。
对基于Transformer的时空建模网络使用softmax交叉熵损失LId和三元组损失LTriplet共同优化,如式(8)和式(9)所示:
式中,ns表示类别数,qi表示每个类别的权重,如果真值为第i类,则qi=1,否则qi=0,zi是身份分类器的输出,表示每个ID标签的预测概率。
式中,X表示训练批次中的视频片段,xa是锚点,xp是与输入视频xa具有相同身份的困难样本,xn是与视频xa具有不同身份的困难样本,f(·)表示视频的特征,是两个视频特征之间的欧式距离,[·]+表示max(0,·),α是余量参数,取经验值。
最终网络损失函数LTotal表示为:
LTotal=λ1×LId2×LTriplet (10)
式中,λ1、λ2是超参数,设定初始值后在训练过程中不断迭代优化得到。
步骤5,对待查询的视频和视频库做视频预处理,将其转化为可计算的张量数据。
输入待查询的视频,通过Pytorch内置函数将其处理为4×3×224×112的视频片段。
步骤6,将步骤5转化得到的张量数据输入到训练后的Transformer时空建模网络模型,提取到有效的时空特征表示。
将待查询视频和视频库数据分别输入到Transformer时空建模网络模型中提取行人特征表示,将Transformer模块输出的2048维特征作为最终的行人特征表示。
步骤7,计算目标视频特征与视频库数据特征之间的欧几里得距离,根据距离从小到大对视频库中查询到的结果进行排序,匹配到对应的视频。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于Transformer时空建模的视频行人重识别方法,其特征在于,包括如下步骤:
步骤1,对行人重识别视频数据集进行视频预处理,得到便于训练的视频片段;
步骤2,提取步骤1中预处理后的视频片段的帧级特征;
将步骤1中预处理后的视频片段以帧的形式输入到ResNet50网络中,并去掉ResNet50网络的最后两层,网络输出结果作为提取到的帧级特征;
步骤3,构建基于Transformer的时空建模网络,包括位置编码模块和Transformer模块;
步骤3.1,构建位置编码模块,用于给步骤2提取的帧级特征加上位置信息,以最大程度地保证视频帧的序列信息;
步骤3.1.1,通过二维平均池化层提取步骤2中得到的特征图的显式信息,将特征图F∈RB×C×H×W转换为F′∈Rb×T×D,其中B、C、H和W分别表示batchsize×帧数、特征图的通道、高度和宽度,b、T和D分别表示batchsize、序列帧数和通道数;
步骤3.1.2,利用PE层为F′加入位置信息,PE的计算公式如下:
式中,pos表示当前帧在序列中的位置,i表示PE的维度,取值范围为[0,...,D/2];
步骤3.2,构建Transformer模块,用于聚合帧级特征以实现序列信息的运动建模,完成时空特征的提取;
构建的Transformer模块包含multi-head self-attention模块、feedforwardnetwork模块和Add&Norm模块,其中Add表示Residual Connection,用于防止网络退化,Norm表示Layer Normalization,用于对每一层的激活值进行归一化,具体包括以下几个步骤:
步骤3.2.1,将步骤3.1得到的加上位置信息的帧级特征作为Transformer模块的输入,分别经过变换矩阵Wq、Wk、Wv得到Q、K、V三个矩阵,其中矩阵Q表示待查询的视频信息,矩阵K表示视频中的关键信息,矩阵V表示视频中的附加信息,计算公式如下:
Q=WqF′ (3)
K=WkF′ (4)
V=WvF′ (5)
步骤3.2.2,计算权重矩阵O,并经过feedforward network模块和Add&Norm模块得到加权特征A,计算公式如下:
O=Q·K+V (6)
A=LayerNormalization(O+feedforwardNetwork(O)) (7)
步骤3.2.3,将步骤3.2.2得到的加权特征A输入到分类层产生分类预测,分类层为一个输出维度等于行人类别数的全连接层;
步骤3.2.4,利用分类预测与视频标签计算交叉熵损失,再通过反向传播进行网络参数更新;
步骤4,用步骤3.1得到的加上位置信息的帧级特征训练基于Transformer的时空建模网络;
步骤4.1,设置训练参数;
步骤4.2,使用softmax交叉熵损失和三元组损失共同对网络进行优化;
步骤5,对待查询的视频和视频库做视频预处理,将其转化为可计算的张量数据;
步骤6,将步骤5转化得到的张量数据输入到训练后的Transformer时空建模网络模型,提取到有效的时空特征表示;
步骤7,计算目标视频特征与视频库数据特征之间的欧几里得距离,根据距离从小到大对视频库中查询到的结果进行排序,匹配到对应的视频。
2.如权利要求1所述的一种基于Transformer时空建模的视频行人重识别方法,其特征在于:所述步骤1中视频预处理是首先将Mars视频数据集的视频大小调整为4×3×224×112,分别对应着batchsize×帧数、通道数、高度、宽度,然后利用随机翻转、随机裁剪方法进行数据增强,最后通过Pytorch内置函数把调整后的视频转化为Pytorch框架可以处理的张量数据。
3.如权利要求1所述的一种基于Transformer时空建模的视频行人重识别方法,其特征在于:所述步骤4.1中设置训练参数包括采用Adam优化器,初始学习率设为0.0003,batchsize设为32,训练模型800个周期,每经过200个周期学习率下降十倍,最终得到训练完成的时空建模网络模型权重。
4.如权利要求1所述的一种基于Transformer时空建模的视频行人重识别方法,其特征在于:所述步骤4.2中对网络使用softmax交叉熵损失LId和三元组损失LTriplet共同优化,如式(8)和式(9)所示:
式中,ns表示类别数,qi表示每个类别的权重,如果真值为第i类,则qi=1,否则qi=0,zi是身份分类器的输出,表示每个ID标签的预测概率;
式中,X表示训练批次中的视频片段,xa是锚点,xp是与输入视频xa具有相同身份的困难样本,xn是与视频xa具有不同身份的困难样本,f(·)表示视频的特征,是两个视频特征之间的欧式距离,[·]+表示max(0,·),α是余量参数,取经验值;
最终网络损失函数LTotal表示为:
LTotal=λ1×LId2×LTriplet (10)
式中,λ1、λ2是超参数,设定初始值后在训练过程中不断迭代优化得到。
5.如权利要求1所述的一种基于Transformer时空建模的视频行人重识别方法,其特征在于:所述步骤5中视频预处理是通过Pytorch内置函数将待查询的视频处理为4×3×224×112的视频片段。
6.如权利要求1所述的一种基于Transformer时空建模的视频行人重识别方法,其特征在于:所述步骤6中提取有效的时空特征表示是将待查询视频和视频库数据分别输入到Transformer时空建模网络模型中提取行人特征表示,将Transformer模块输出的2048维特征作为最终的行人特征表示。
CN202110798721.1A 2021-07-15 2021-07-15 基于Transformer时空建模的视频行人重识别方法 Active CN113627266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110798721.1A CN113627266B (zh) 2021-07-15 2021-07-15 基于Transformer时空建模的视频行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110798721.1A CN113627266B (zh) 2021-07-15 2021-07-15 基于Transformer时空建模的视频行人重识别方法

Publications (2)

Publication Number Publication Date
CN113627266A CN113627266A (zh) 2021-11-09
CN113627266B true CN113627266B (zh) 2023-08-18

Family

ID=78379830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110798721.1A Active CN113627266B (zh) 2021-07-15 2021-07-15 基于Transformer时空建模的视频行人重识别方法

Country Status (1)

Country Link
CN (1) CN113627266B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170558A (zh) * 2021-12-14 2022-03-11 北京有竹居网络技术有限公司 用于视频处理的方法、系统、设备、介质和产品
CN113936243A (zh) * 2021-12-16 2022-01-14 之江实验室 一种离散表征的视频行为识别系统及方法
CN114067286A (zh) * 2022-01-18 2022-02-18 松立控股集团股份有限公司 基于序列化可形变注意力机制的高位相机车辆重识别方法
CN114783003B (zh) 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
CN116636423B (zh) * 2023-07-26 2023-09-26 云南农业大学 一种茯苓菌种的高效培育方法
CN117635973B (zh) * 2023-12-06 2024-05-10 南京信息工程大学 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110765880A (zh) * 2019-09-24 2020-02-07 中国矿业大学 一种轻量级视频行人重识别方法
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN112906493A (zh) * 2021-01-27 2021-06-04 中国石油大学(华东) 一种基于互相关注意力机制的跨模态行人重识别方法
CN113033657A (zh) * 2021-03-24 2021-06-25 武汉理工大学 一种基于Transformer网络的多人行为识别方法
CN113053366A (zh) * 2021-03-12 2021-06-29 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110765880A (zh) * 2019-09-24 2020-02-07 中国矿业大学 一种轻量级视频行人重识别方法
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112906493A (zh) * 2021-01-27 2021-06-04 中国石油大学(华东) 一种基于互相关注意力机制的跨模态行人重识别方法
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113076809A (zh) * 2021-03-10 2021-07-06 青岛海纳云科技控股有限公司 一种基于视觉Transformer的高空坠物检测方法
CN113053366A (zh) * 2021-03-12 2021-06-29 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
CN113033657A (zh) * 2021-03-24 2021-06-25 武汉理工大学 一种基于Transformer网络的多人行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向视频监控场景的目标空间结构语义感知;张亚庆;《中国博士学位论文全文数据库 信息科技辑》;第1-79页 *

Also Published As

Publication number Publication date
CN113627266A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111526434B (zh) 基于转换器的视频摘要方法
CN113806587A (zh) 一种多模态特征融合的视频描述文本生成方法
WO2022116616A1 (zh) 一种基于转换模块的行为识别方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN115019239A (zh) 一种基于时空交叉注意力的实时动作定位方法
CN116469005A (zh) 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN111967358A (zh) 一种基于注意力机制的神经网络步态识别方法
CN114463340A (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN113449676A (zh) 一种基于双路互促进解纠缠学习的行人重识别方法
CN117315293A (zh) 一种基于Transformer的时空上下文目标跟踪方法及系统
CN112801095A (zh) 一种基于注意力机制的图神经网络集装箱文本识别方法
Li et al. Locally-enriched cross-reconstruction for few-shot fine-grained image classification
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法
CN113887516A (zh) 用于人体动作识别的特征提取系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant