CN111563404A - 用于基于视频的人再识别的全局局部时间表示方法 - Google Patents

用于基于视频的人再识别的全局局部时间表示方法 Download PDF

Info

Publication number
CN111563404A
CN111563404A CN201911422601.0A CN201911422601A CN111563404A CN 111563404 A CN111563404 A CN 111563404A CN 201911422601 A CN201911422601 A CN 201911422601A CN 111563404 A CN111563404 A CN 111563404A
Authority
CN
China
Prior art keywords
convolution
temporal
video
tsa
dtp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911422601.0A
Other languages
English (en)
Other versions
CN111563404B (zh
Inventor
张史梁
李佳宁
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911422601.0A priority Critical patent/CN111563404B/zh
Publication of CN111563404A publication Critical patent/CN111563404A/zh
Application granted granted Critical
Publication of CN111563404B publication Critical patent/CN111563404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种适用于基于视频的行人再识别的全局局部时间表示方法。本申请提出的网络分别由DTP卷积和TSA模型组成。DTP由并行扩展的时间卷积组成,用于模拟相邻帧之间的短期时间线索。TSA利用非连续帧之间的关系来捕获全局时间线索。在五个基准数据集上的实验结果表明,所提出的GLTR方法优于目前最先进的方法。

Description

用于基于视频的人再识别的全局局部时间表示方法
技术领域
本发明涉及人工智能技术领域,特别涉及一种视频识别和表示方法及系统。
背景技术
人的再识别是指通过匹配行人的图像或视频序列,在摄像机网络中识别行人,具有 智能监控和刑事侦查等多种实际应用。基于图像的人ReID在解决方案和大型基准数据集构 建方面都取得了重大进展。近年来,基于视频的行人再识别(video person ReID)的研究受 到了广泛关注,因为视频数据的可用性比以往更容易,而且视频数据提供的信息比图像数 据更丰富。基于视频的人物ReID能够探索大量的时空线索,有可能解决基于图像的人物 ReID面临的一些挑战,区分穿着视觉相似服装的不同人群。
参见图1,某数据集上两个外观相似的不同行人的两个视频序列的插图(本申请出于 隐私目的覆盖面部)。相邻帧之间的局部时间线索,例如运动模式或速度,有助于区分这两 个行人。相邻帧之间的全局上下文线索可以应用于点遮挡和噪声,如遮挡帧与其他帧的相 似性较小。
基于视频的人再识别,现有研究的主要焦点在于时间线索的利用。现有技术根据时间 特征学习的方式可分为三种:(1)从附加的CNN(卷积神经网络)输入中提取动态特征,例如,通过光流;(2)通过将视频视为三维数据,例如通过3DCNN(卷积神经网络)提取 时空特征。(3)通过时间序列帧级特征,例如通过递归神经网络(RNN)和时间池或权值 学习来学习鲁棒的人的表示。
其中,第三种是目前占主导地位的基于视频的行人再识别。具有两个优点:(1)与第 一种相比,为图像ReID开发的行人表征技术可以更加容易实现;(2)它避免了光流的估计, 因为相邻帧之间的误差仍然不够可靠。目前的研究已经显著提高了现有数据集的性能,但 无论在效率还是在时间线索建模方面都存在一定的局限性。例如,RNN模型对于长序列视 频的训练是很复杂的。特征时间池不能对视频帧序列进行建模,而视频帧序列能够传递关 键的时间信息。通过端到端的CNN学习,探索更高效、更有效的获取时空特征的方法具有 重要意义。
本申请的目标是通过嵌入短期和长期的时间线索,从一系列帧特征中学习一种有区 别的全局局部时间表示(GLTR)。如图1所示,相邻帧之间的短期时间线索有助于区分视觉上相似的行人。长期的时间线索有助于缓解视频序列中的遮挡和噪声。扩展空间金字塔卷积(Dilated Spatial Pyramid Convolution)是图像分割中常用的一种空间上下文挖掘方法, 受其强大而高效的空间上下文建模能力的启发,本申请将扩展空间金字塔卷积(Dilated Spatial Pyramid Convolution)推广到扩展时间金字塔卷积(DTP)卷积中,用于局部时间上 下文学习。为了捕捉全局时间线索,引入时间自注意(TSA)模型,利用非连续帧之间的 上下文关系。将DTP和TSA应用于帧级特征,通过端到端CNN训练学习GLTR。实验和可视化结果表明,GLTR具有很强的分辨能力和鲁棒性
发明内容
本发明实施例提供了基于视频的人再识别的全局局部时间表示方法。为了对披露的实 施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述, 也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的 形式呈现一些概念,以此作为后面的详细说明的序言。
一种基于视频的人再识别的全局局部时间表示方法,包括:
获得视频数据;
处理所述视频数据得到DTP模型数据和TSA模型数据;
对所述DTP模型数据和/或TSA模型数据进行颞锥卷积;
实现基于视频的人再识别的全局局部时间表示。
优选地,
DTP模型数据用于捕获相邻帧之间的局部时间线索;
TSA模型数据利用非连续帧之间的关系来捕获全局时间线索。
优选地,所述得到DTP模型数据和TSA模型数据包括:
画廊视频用
Figure BDA0002352714990000021
表示,其中
Figure BDA0002352714990000025
查询视频用
Figure BDA0002352714990000022
表示, Tk(Tq)表示序列中的帧数,
Figure BDA0002352714990000023
表示第t帧。如果库视频
Figure BDA0002352714990000024
与基于视频 表示的查询的距离最近,则它将被标识为真正片,即:
Figure BDA0002352714990000031
其中
Figure BDA0002352714990000032
Figure BDA0002352714990000033
分别是gallery video
Figure BDA0002352714990000034
和query video
Figure BDA0002352714990000035
的表示;
本申请的方法由两个子网组成,分别是图像特征提取子网和帧特征聚合子网,来学习 一个有区别的视频表示。第一个子网提取T帧的特征,即
Figure BDA0002352714990000036
其中
Figure BDA0002352714990000037
第二个子网将T frame特征聚合为单个视频表示向量。本申请举例说明第二个子网,这是这项工作的重点在图2。本申请将在 下面的段落中简要演示DTP和TSA的计算;
DTP设计用于捕获相邻帧之间的局部时间线索;DTP以F中的帧特征作为输入,输出更新后的帧特征
Figure BDA0002352714990000038
每个
Figure BDA0002352714990000039
是通过聚集其相邻帧 特征来计算的,即
Figure BDA00023527149900000310
其中
Figure BDA00023527149900000311
表示DTP模型,f′t由2×i相邻帧计算;
TSA模型利用非连续帧之间的关系来捕获全局时间线索。它以
Figure BDA00023527149900000312
为输入,输出时间特征
Figure BDA00023527149900000313
每个
Figure BDA00023527149900000314
是通过考虑
Figure BDA00023527149900000315
内特征之间的 上下文关系来计算的,即
Figure BDA00023527149900000316
其中
Figure BDA00023527149900000317
是TSA模型;
每个f″t集合了局部和全局时间线索。最后,本申请在
Figure BDA00023527149900000318
上应用平均池来生成基于视频的行人再识别的固定长度ReID,即
Figure BDA0002352714990000041
优选地,所述颞锥卷积包括:
假设
Figure BDA0002352714990000042
是具有时间宽度W的卷积核,当输入帧特征
Figure BDA0002352714990000043
时,具有扩张率r的扩张卷积的输出
Figure BDA0002352714990000044
可以定义为:
Figure BDA0002352714990000045
Figure BDA0002352714990000046
其中
Figure BDA0002352714990000047
是包含
Figure BDA0002352714990000048
的输出特征的集合;W(r)表示具有扩张率r的扩张卷积;
膨胀率r表示采样帧特征的时间步长。它决定了被扩张的时间卷积所覆盖的时间尺度; 使用r=2,w=3,每个输出特征对应于五个相邻帧的时间范围;标准卷积可以看作是r=1的 特例,它覆盖了三个相邻的帧;与标准卷积相比,r≥2的扩张时间卷积具有相同数量的参 数可供学习,但在不降低时间分辨率的情况下扩大了神经元的感受野;这种特性使得扩展 时间卷积成为一种有效的多尺度时间特征学习策略;
DTP卷积由N个平行的扩张卷积组成,其扩张率逐渐增加以覆盖各种时间范围;对于 第n次扩张的颞卷积,将其扩张率rn设为rn=2n-1,以有效地扩大颞感受野;将N个分支的输出串接为更新的时间特征
Figure BDA0002352714990000049
即计算
Figure BDA00023527149900000410
Figure BDA00023527149900000411
其中ri是第i个扩张的颞叶卷积的扩张率。
优选地,所述TSA模型数据利用非连续帧之间的关系来捕获全局时间线索,其含义为:
TSA是计算T×T大小的注意遮罩M来存储所有帧特征之间的上下文关系;给定输入
Figure BDA00023527149900000412
TSA首先应用两个卷积层,然后进行批量归一化,然后重新生成 特征映射尺寸(Nd/α)×T的B和C;在C和B的转置之间执行矩阵乘法,得到T×T 大小的时间注意掩码M;
M用于更新
Figure BDA0002352714990000051
以嵌入额外的全局时间线索;将
Figure BDA0002352714990000052
输入卷积层,生成一个新的
Figure BDA0002352714990000053
特征映射,其大小为(Nd/α)×T,
Figure BDA0002352714990000054
与M相乘,然后将输入卷积层,将其大小恢复为 Nd×T,通过残差连接将得到的特征映射与原
Figure BDA0002352714990000055
融合,得到更新后的时间特征
Figure BDA0002352714990000056
TSA的计算可以表示为
Figure BDA0002352714990000057
其中W表示最后一个卷积核;将W初始化为0以简化剩余连接的优化;α控制TSA 中的参数大小;把α设为2;对
Figure BDA0002352714990000058
进行平均池处理,得到最终的
Figure BDA0002352714990000059
将F,
Figure BDA00023527149900000510
M和f可视化,这些都是在有遮挡的轨迹上计算出来的;DTP通过对相邻特征 进行卷积,合理地减少了遮挡;TSA主要通过计算注意遮罩M来减轻遮挡,该注意遮罩M 存储的全局上下文关系;对于M,
Figure BDA00023527149900000511
上的平均池可以在概念上表示为:
Figure BDA00023527149900000512
其中
Figure BDA00023527149900000513
是t维加权向量。请注意,公式(8)省略了
Figure BDA00023527149900000514
前后的 卷积,以简化表达式;m中被遮挡的帧呈现较低的权重,指示其特征在平均汇集期间被抑 制。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明提出了全局局部时间表示(GLTR)方法,利用视频序列中的多尺度时间线索进 行基于视频的人再识别(ReID),首先对相邻帧之间的短期时间线索进行建模,然后捕获非 连续帧之间的长期关系,从而构造GLTR。具体地说,短期时间线索是由具有不同时间扩张 率的平行扩张卷积来表示行人的运动和外观。利用时间自注意模型捕捉视频序列中的长时 程关系,以减少视频序列中的遮挡和噪声。短期和长期的时间线索被一个简单的单流CNN 聚合为最终的GLTR。GLTR显示了现有的特点,了解身体部分线索或度量学习四个广泛使 用的视频再识别数据集。例如,它在没有重新排序的情况下,在MARS数据集上达到8702% 的一级精度,比目前的技术水平要好。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限 制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例, 并与说明书一起用于解释本发明的原理。
图1:某数据集上两个外观相似的不同行人的两个视频序列的插图;
图2:用于GLTR提取的帧特征聚合子网络的说明,该子网络包括用于局部时间上下文 学习的扩展时间金字塔(DTP)卷积和用于开发全局时间线索的时间自关注(TSA)模型;
图3:在有闭塞的轨迹上计算的F,F′,F′,M和F的可视化;
图4:LS-VID数据集中一些静态数据的分析示例;
图5:从人的轨迹中均匀采样的帧;
图6:DTP和两个竞争对手在三个分支数不同的数据集上的Rank1精度,即参数N。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践 它们。
1基本介绍
本申请在一个新提出的用于人ReID(LS-VID)的大规模视频数据集和四个广泛使用的 视频ReID数据集上测试了本申请的方法,这些数据集分别包括PRID、iLIDS VID、MARS和 DukeMTMC Video ReID。实验结果表明,GLTR在这些数据集上具有一致的性能优势。它在MARS数据集上实现了8702%的一级准确率,没有重新排名,比最近的PBR使用额外的身 体部位线索进行视频特征学习要好2%。它在PRID和DukeMTMC VideoReID上分别达到了9448%和9629%的一级准确率,也超过了目前的技术水平。
GLTR表示是通过简单的DTP和TSA模型提取的一系列帧特征。尽管计算简单且高效, 但此解决方案优于许多最近使用复杂设计(如身体部位检测和多流cnn)的方法。尽管计 算简单且高效,但此解决方案优于许多最近使用复杂设计(如身体部位检测和多流cnn)的方法。
图2:用于GLTR提取的帧特征聚合子网络的说明,该子网络包括用于局部时间上下文学习的扩展时间金字塔(DTP)卷积和用于开发全局时间线索的时间自关注(TSA)模型。
2相关技术
现有的人再识别方法可以归纳为基于图像的再识别和基于视频的再识别。这一部分简 要回顾了与本研究密切相关的基于视频的人物ReID的四类时间特征学习。
时态池被广泛用于聚合所有时间戳上的特征。郑应用max和mean池来获得视频特性。 李利用部分线索并学习加权策略来融合从视频帧中提取的特征。苏提出了一种双流结构, 共同学习外观特征和零件特征,并通过池策略融合图像级特征。最近的研究中也使用了平 均池,将无监督学习应用于基于视频的行人再识别。时间池具有很好的效率,但它独立地 提取帧特征,忽略了相邻帧之间的时间顺序。
光流编码相邻帧之间的短期运动。许多方法利用光流来学习时间特征。Simonyan引入 了一个双流网络,从叠加的光流中学习空间特征和时间特征。Feichtenhofer利用光流来学 习时空特征,并评估两个流之间不同类型的运动交互。Chung介绍了一种用于外观和光流 的双流结构,并研究了这两种流的加权策略。Mclaughlin引入光流和RNN来利用长、短期 时间线索。光流的一个潜在问题是它对相邻空间包围盒之间存在的空间不对中误差敏感。
递归神经网络(RNN)也被用于基于视频的人的视频特征学习。Mclaughlin首先提取 图像级特征,然后引入RNN对跨帧时间线索进行建模。然后,RNN的输出通过时间池进行组合,作为最终的视频特征。Liu提出了一种递归结构来聚合帧级表示并产生序列级人类特征表示。RNN引入了一定数量的全连接层和门来进行时间线索建模,使得训练变得复杂和困难。
三维卷积通过端到端CNN训练直接提取时空特征。最近,deep 3D-CNN被引入到视频 表示学习中。Tran提出了用于时空特征学习的C3D网络。邱将三维卷积滤波器分解为空间 和时间分量,从而获得性能增益。Li构建了一个紧凑的多尺度3D卷积网络来学习多尺度时间线索。尽管3D-CNN具有良好的性能,但它仍然对空间偏差敏感,需要叠加一定数量 的3D卷积核,导致参数开销大,增加了CNN优化的难度。
本申请通过在帧特征上发布DTP和TSA模块来学习GLTR。与现有的时间池策略相比, 本申请的方法同时捕获全局和局部时间线索,因此表现出更强的时间线索建模能力。它比 RNN更易于优化,并且比光流对失调误差具有更好的鲁棒性。与3D-CNN相比,本申请的模型具有更简单的结构,并且可以很容易地利用为基于图像的人ReID开发的表示。如本申请的实验所示,本申请的方法优于最近的3D CNN模型M3D和递归模型STMP。
3建议方法
3.1公式化(FORMULATION)
基于视频的行人再识别的目标是识别一组视频,该视频与来自包含K个视频的视频集 的查询视频大致相同。画廊视频用
Figure BDA0002352714990000081
表示,其中
Figure BDA0002352714990000082
查询视频用
Figure BDA0002352714990000083
表示, Tk(Tq)表示序列中的帧数,
Figure BDA0002352714990000084
表示第t帧。如果库视频
Figure BDA0002352714990000085
与基于视频 表示的查询的距离最近,则它将被标识为真正片,即:
Figure BDA0002352714990000086
其中
Figure BDA0002352714990000087
Figure BDA0002352714990000088
分别是gallery video
Figure BDA0002352714990000089
和query video
Figure BDA00023527149900000810
的表示。
本申请的方法由两个子网组成,分别是图像特征提取子网和帧特征聚合子网,来学习 一个有区别的视频表示。第一个子网提取T帧的特征,即
Figure BDA00023527149900000811
其中
Figure BDA00023527149900000812
第二个子网将T frame特征聚合为单个视频表示向量。本申请举例说明第二个子网,这是这项工作的重点在图2。本申请将在 下面的段落中简要演示DTP和TSA的计算。
DTP设计用于捕获相邻帧之间的局部时间线索。如图2所示,DTP以F中的帧特征作为输入,输出更新后的帧特征
Figure BDA00023527149900000813
每个
Figure BDA00023527149900000814
是通过 聚集其相邻帧特征来计算的,即
Figure BDA0002352714990000091
其中
Figure BDA0002352714990000092
表示DTP模型,f′t由2×i相邻帧计算。
TSA(temporal self attention,暂时自注意)模型利用非连续帧之间的关系来捕获全局 时间线索。它以
Figure BDA0002352714990000093
为输入,输出时间
特征
Figure BDA0002352714990000094
每个
Figure BDA0002352714990000095
是通过考虑
Figure BDA0002352714990000096
内特征之 间的上下文关系来计算的,即
Figure BDA0002352714990000097
其中
Figure BDA0002352714990000098
是TSA模型。
每个f″t集合了局部和全局时间线索。最后,本申请在
Figure BDA0002352714990000099
上应用平均池来生成基于视频的行人再识别的固定长度ReID,即
Figure BDA00023527149900000910
在RNN和3DCNN中,为了生成固定长度的视频特征,通常也使用平均池。每个f″t中嵌入的全局和局部时间线索保证了f的强分辨能力和鲁棒性。
3.2颞锥卷积(DILATED TEMPORALPYRAMID CONVOLUTION)
扩展时间卷积:扩展空间卷积以其高效的空间上下文建模能力在图像分割中得到了广 泛的应用。在扩展空间卷积的启发下,本申请实现了用于局部时间特征学习的扩展时间卷 积。假设
Figure BDA00023527149900000911
是具有时间宽度W的卷积核,当输入帧特征
Figure BDA00023527149900000912
时,具有扩张率r的扩张卷积的输出
Figure BDA00023527149900000913
可以定义为:
Figure BDA0002352714990000101
Figure BDA0002352714990000102
其中
Figure BDA0002352714990000103
是包含
Figure BDA0002352714990000104
的输出特征的集合。W(r)表示具有扩张率r的扩张卷积。
膨胀率r表示采样帧特征的时间步长。它决定了被扩张的时间卷积所覆盖的时间尺度。 例如,使用r=2,w=3,每个输出特征对应于五个相邻帧的时间范围。标准卷积可以看作是 r=1的特例,它覆盖了三个相邻的帧。与标准卷积相比,r≥2的扩张时间卷积具有相同数 量的参数可供学习,但在不降低时间分辨率的情况下扩大了神经元的感受野。这种特性使 得扩展时间卷积成为一种有效的多尺度时间特征学习策略。
扩张的时间金字塔卷积:具有不同扩张率的扩张的时间卷积在不同尺度上模拟时间线 索。因此,本申请使用并行扩展卷积来建立DTP卷积,以增强其局部时间线索的建模能力。
如图2所示,DTP卷积由N个平行的扩张卷积组成,其扩张率逐渐增加以覆盖各种时间范围。对于第n次扩张的颞卷积,本申请将其扩张率rn设为rn=2n-1,以有效地扩大颞感 受野。本申请将N个分支的输出串接为更新的时间特征
Figure BDA0002352714990000105
即计算
Figure BDA0002352714990000106
Figure BDA0002352714990000107
其中ri是第i个扩张的颞叶卷积的扩张率。
Figure BDA0002352714990000108
Figure BDA0002352714990000111
表1:LS-VID数据集和其他基于视频的行人再识别数据集的统计
图3:在有闭塞的轨迹上计算的F,
Figure BDA0002352714990000112
M和f的可视化。PCA将F,
Figure BDA0002352714990000113
Figure BDA0002352714990000114
的维数降为1×T进行可视化。很明显,遮挡影响基线特征F,即特征随着遮挡的 发生而实质性地改变。DTP和TSA逐渐缓解了
Figure BDA0002352714990000115
Figure BDA0002352714990000116
的闭塞,即
Figure BDA0002352714990000117
Figure BDA0002352714990000118
中的闭塞帧 的特征与其他帧相似。f是在手动移除被遮挡的帧之后生成的。f与f*相当接近,表明GLTR 对闭塞具有很强的鲁棒性。
3.3暂时自注意模型(temporal self attention)
自注意:自注意模块最近被用于学习图像分割、动作识别和基于图像的人ReID中的 远程空间依赖性。受其在空间上下文建模中的良好表现启发,本申请将“自注意”推广到捕捉非连续帧之间的上下文-时间关系。
暂时自注意:TSA的基本思想是计算T×T大小的注意遮罩M来存储所有帧特征之间的上下文关系。如图2所示,给定输入
Figure BDA0002352714990000119
TSA首先应用两个卷积层, 然后进行批量归一化,然后重新生成特征映射尺寸(Nd/α)×T的B和C。然后,在C 和B的转置之间执行矩阵乘法,得到T×T大小的时间注意掩码M。
M用于更新
Figure BDA00023527149900001110
以嵌入额外的全局时间线索。将
Figure BDA00023527149900001111
输入卷积层,生成一个新的
Figure BDA00023527149900001112
特征映射,其大小为(Nd/α)×T,
Figure BDA00023527149900001113
与M相乘,然后将输入卷积层,将其大小恢复为Nd×T,通过残差连接将得到的特征映射与原
Figure BDA0002352714990000121
融合,得到更新后的时间特征
Figure BDA0002352714990000122
TSA的计算可以表示为
Figure BDA0002352714990000123
其中W表示最后一个卷积核。将W初始化为0以简化剩余连接的优化。α控制TSA 中的参数大小。本申请把α设为2。对
Figure BDA0002352714990000124
进行平均池处理,得到最终的
Figure BDA0002352714990000125
在图3中,本申请将F,
Figure BDA0002352714990000126
M和f可视化,这些都是在有遮挡的轨迹上计算 出来的。DTP通过对相邻特征进行卷积,合理地减少了遮挡。TSA主要通过计算注意遮罩 M来减轻遮挡,该注意遮罩M存储如图3所示的全局上下文关系。对于M,
Figure BDA0002352714990000127
上的平 均池可以在概念上表示为:
Figure BDA0002352714990000128
其中
Figure BDA0002352714990000129
是t维加权向量。请注意,公式(8)省略了
Figure BDA00023527149900001210
前后的 卷积,以简化表达式。m在图3中可见,其中被遮挡的帧呈现较低的权重,指示其特征在 平均汇集期间被抑制。结合DTP和TSA,GLTR具有很强的鲁棒性。
图5:从人轨迹中均匀采样的帧。每一行在不同的摄像机下显示同一个人的两个序列。 与现有的数据集相比,LS-VID提出了更大的变化的照明,场景和背景等。
4实验
4.1数据集
本申请在四个广泛使用的视频ReID数据集和一个新的大规模数据集上测试了本申请 的方法。图5描绘了示例图像,表1给出了统计数据。
PRID-2011。共有400个序列,200名行人被两台摄像机拍下。每个序列的长度在5到675帧之间。
伊利兹参考文献。两台摄像机共有600组300名行人。每个序列在23到192帧之间具有可变长度。在前面的工作中实现之后,本申请随机地将这两个数据集分割成列车/测试标识。为了计算平均精度,此过程重复10次。
MARS数据集。该数据集由6台摄像机拍摄。它由17503个1261个身份序列和3248 个干扰序列组成。它分为625个训练身份和636个测试身份。使用DPM检测器检测边界 框,并使用GMMCP跟踪器跟踪边界框。本申请遵循MARS协议,报告Rank1精度和平均 精度(mAP)。
DukeMTMC VideoReID。有702个训练身份,702个测试身份,408个干扰身份。训练集包含369656帧2196个轨迹,测试集包含445764帧2636个轨迹。
LS-VID公司。除上述四个数据集外,本申请还收集了一个新的用于person-ReID(LS-VID) 的大规模视频数据集。
原始视频捕获:本申请使用15个摄像头网络,并选择4天进行数据记录。每天上午、中午和下午分别拍摄3小时的视频。本申请的最终原始视频包含180小时视频、12个室外 摄像机、3个室内摄像机和12个时隙。
检测与跟踪:采用更快的RCNN进行行人检测。然后,本申请设计了一种特征匹配策略来跟踪每个摄像头中检测到的每个行人。在剔除了一些长度过短的序列后,本申请最终收集了3772个行人的14943个序列,平均序列长度为200帧。
特点:LS-VID中的示例序列如图5所示,统计见表1和图4。LS-VID显示了以下新特性:(1)较长的序列。(2)更精确的行人轨迹。(3)目前最大的视频ReID数据集。(4)定 义一个更现实和更具挑战性的ReID任务。
评估协议:由于数据注释昂贵,本申请随机将数据集分成1:3的训练集和测试集,以 鼓励更有效的训练策略。本申请进一步划分了一个小的验证集。最后,训练集包含550419 个842个身份的包围盒,验证集包含155191个200个身份的包围盒,测试集包含2277075 个2730个身份的包围盒。与现有视频再识别数据集(56,48)相似,LS-VID使用累积匹配 特征(CMC)曲线和平均平均精度(MAP)作为评价度量。
图6:DTP和两个竞争对手在三个分支数不同的数据集上的Rank1精度,即参数N。
4.2实施细节
本申请采用标准ResNet50作为帧特征提取的骨干。所有的模型都经过训练,并用PyTorch进行微调。采用随机梯度下降法(SGD)对模型进行优化。输入图像的大小调整为256×128个。从每个(B、G和R)通道中减去平均值。对于2D CNN训练,每批包含128 个图像。初始学习率设为001,10次后降低10倍。训练在20个阶段后结束。对于DTP和 TSA培训,本申请抽样每个序列的16个相邻帧作为每个训练历元的输入。批量设置为10。 初始学习率设为001,120次后降低10倍。训练在400个阶段后结束。所有的模型都只训 练了softmax损失。
在测试过程中,本申请使用2D CNN从每个视频帧中提取d=128的dim特征,然后使用图2中所示的网络将帧特征融合到GLTR中。最后将视频特征应用于欧氏距离的人ReID。本申请的所有实验都是用GTX TITAN X GPU、Intel i7 CPU和128GB内存实现的。
4.3消融研究(ABLATION STUDY)
DTP与其他局部时间线索学习策略的比较:除了DTP,本申请还实现了以下策略来学 习相邻帧之间的时间线索:(i)不扩张的金字塔时间卷积,和(ii)时间金字塔池。如第二节所述。32,DTP第i金字塔分支的扩张率为ri=2i-1。为了进行公平的比较,本申请设置了三种分支数目相同的方法,每种方法的接收野大小相同。例如,对于金字塔时间卷积的第三分支,本申请将卷积核的大小设为d×9,而不需要扩展。图6总结了在MARS数据集、DukeMTMC VideoReID和LS-VID验证集上的实验结果。
图6还比较了作为基准的平均池。很明显,三种方法的性能明显优于基线,这表明平 均池在捕获帧特征之间的时间线索方面并不有效。当N=1时,这三种方法的性能相同,即 对帧特征F采用d×3大小的卷积核,随着N的增加,三种算法的性能都得到了提高。这 意味着引入多重卷积尺度有利于学习时间特征。
同样明显的是,DTP在三个数据集上始终优于其他两个策略。原因可能是时间金字塔 池在对时间分辨率进行采样时丢失了某些时间提示。传统的时间卷积方法引入了太多的参 数,导致优化困难。DTP中的扩展卷积有效地扩大了时间域,因而对局部时间特征学习有 较好的效果。当N≥3时,DTP的性能提升减慢。进一步引入更多的分支,增加了参数的 规模,使得优化更加困难。在下面的实验中,本申请选择N=3作为DTP。
Figure BDA0002352714990000151
表2:GLTR中单个组件的性能。
Figure BDA0002352714990000152
表3:LS-VID测试集上不同骨干的GLTR性能。
DTP和TSA相结合的有效性:本部分对DTP和TSA相结合产生的最佳视频特征进行评价。本申请比较了几种不同的方法,并在表2中总结了四个数据集和LS-VID测试集的结果。在表中,“基线”表示ResNet50+平均池。“DTP”和“TSA”分别表示仅使用DTP或TSA的 聚合帧特征。“GLTR”结合了DTP和TSA。
表2显示,DTP或TSA的性能比基线好得多,这表明建模额外的局部和全局时间线索可以获得更好的视频特征。DTP模型在MARS数据集上的rank1精度达到8574%,大大优 于基线。同样,TSA的性能也大大优于基线。通过结合DTP和TSA,GLTR在五个数据集上 始终获得最佳性能。因此,本申请得出结论,联合学习局部和全局时间线索可以获得最佳 的视频特征。
不同骨干网:本申请进一步评估了不同骨干网的GLTR的有效性,包括Alexnet、Inception和ResNet50。表3总结了LS-VID试验装置的试验结果。表3显示,在不同的主干 上实现,GLTR始终优于基线,这表明本申请的方法在不同的帧特征提取器上工作良好。因 此,GLTR可以利用强大的图像表示,并作为基于视频的行人再识别的一般解决方案。由于ResNet50在表3中达到了最好的性能,本申请在下面的实验中采用ResNet50。
4.4与近期方法的比较
Figure BDA0002352714990000161
Figure BDA0002352714990000171
表4:与LS-VID测试集的最新工作比较。
LS-VID:本节将几种最新的方法与本申请在LS-VID测试集上的方法进行比较。为了对 LS-VID进行比较,本申请用作者提供的代码实现了最近的一些工作,包括针对人reid的时 间特征学习方法:M3D和STMP,其他时间特征学习方法:具有外观和光流的双流CNN,LSTM,3D卷积:I3D和P3D,以及最近的一些工作ReID的工作人员:分别是GLAD、HACNN、 PBR和DRSA。GLAD和HACNN的视频特征通过平均池提取。本申请重复了PBR和DRSA, 提到它们在MARS数据集上的植入。表4总结了比较结果。
表4显示,GLAD和HACNN在基于图像的人ReID中获得了很好的性能,但其性能低 于时间特征学习策略M3D和STMP。这表明学习时间线索在基于视频的行人再识别中的重 要性。在比较的时间特征学习方法中,最新的M3D取得了最好的性能。在表4中,建议的 GLTR达到了最佳性能。它比最近的基于视频的行人再识别的工作STMP和M3D有很大的 优势,例如rank1的准确率分别为629%和539%。
Figure BDA0002352714990000172
Figure BDA0002352714990000181
图5:LS-VID、MARS和DukeMTMC VideoReID数据集上的person ReID结果图解。每个示例分别显示了通过基线方法(第一个tow)和GLTR(第二个tow)检索到的前5个序列。 真正的匹配由红点注释。本申请遮住脸是为了隐私。
MARS数据集:表5报告了与最近在MARS数据集上的工作的比较。GLTR的rank1准 确率为8702%,mAP为7847%,分别比STMP、M3D和STA的rank1准确率高262%、263% 和072%。注意,STMP引入了一个复杂的递归网络,使用部分线索和三重态损失。M3D(19) 使用3DCNN(卷积神经网络)来学习时间线索,因此需要更高的计算复杂度。STA在MARS 数据集上实现了竞争性性能,在mAP上的性能优于GLTR。注意,STA引入了多个分支用于 零件特征学习,并使用三元组损失来提高性能。与已有的方法相比,该方法在设计简单的 基础上,实现了具有竞争力的性能,如利用基本骨干网提取全局特征,利用最大软损耗进 行训练。GLTR可以进一步与重新排名策略相结合,进一步将其地图提升至8554%。
PRID和iLIDS-VID:PRID和iLIDS-VID数据集的比较汇总在表6中。结果表明,该方法 在rank1精度上具有很强的竞争力。M3D在这两个数据集上也获得了竞争性的性能。其原因可能是M3D共同学习视频序列中的多尺度时间线索,并引入两流结构分别学习空间和时间表示。通过单特征提取流的设计,本申请的方法在两个数据集上都优于M3D。表6还比 较了几种时间特征学习方法,RFA-Net、SeeForest、T-CN、CSA和STMP。本申请的方法在 rank1精度上大大优于那些工作。
Figure BDA0002352714990000191
Figure BDA0002352714990000201
表6:PRID和ILID VID的近期研究对比。
DukeMTMC VideoReID:表7显示了对该数据集的比较。由于DukeMTMC video ReID是 最近提出的一个VideoReID数据集,因此只有少数方法报告了它的性能。本申请将在本节 中与ETAP Net和STA进行比较。表7中ETAP网的报告性能是在监督基线下实现的。如表7所示,GLTR达到9374%的mAP和9629%的rank1精度,在很大程度上优于ETAP Net。STA 在这个数据集上也实现了竞争性能。GLTR在rank1、rank5和rank20精度上仍然优于STA。 注意,STA利用额外的身体部位提示和三重态丢失。
小结:以上五个数据集的比较可以说明GLTR在person-ReID视频表示学习中的优势, 即通过简单简洁的模型设计达到了竞争性的准确性。本申请还观察到,与其他数据集相比, LS-VID的ReID精度要低得多。例如,LS-VID上的最佳rank1精度为6307%,大大低于MARS 数据集上的8702%。这表明,尽管LS-VID收集更长的序列以提供更丰富的空间和视觉线索, 但它仍然呈现出更具挑战性的人ReID任务。
本申请显示了一些人在LS-VID、MARS和Dukemtmcvideored上通过GLTR和ResNet50基线取得的ReID结果。对于每个查询,本申请用这两种方法显示前5个返回的视频序列。 可以观察到,所提出的GLTR在识别具有相似外观的人时具有更大的区别性。
Figure BDA0002352714990000211
表7:DukeMTMC VideoReID的比较。

Claims (5)

1.一种基于视频的人再识别的全局局部时间表示方法,其特征在于,包括:
获得视频数据;
处理所述视频数据得到DTP模型数据和TSA模型数据;
对所述DTP模型数据和/或TSA模型数据进行颞锥卷积;
实现基于视频的人再识别的全局局部时间表示。
2.根据权利要求1所述的方法,其特征在于,其中,
DTP模型数据用于捕获相邻帧之间的局部时间线索;
TSA模型数据利用非连续帧之间的关系来捕获全局时间线索。
3.根据权利要求1所述的方法,其特征在于,所述得到DTP模型数据和TSA模型数据包括:
画廊视频用
Figure FDA0002352714980000011
表示,其中
Figure FDA00023527149800000114
查询视频用
Figure FDA0002352714980000012
表示,Tk(Tq)表示序列中的帧数,
Figure FDA0002352714980000013
表示第t帧。如果库视频
Figure FDA0002352714980000014
与基于视频表示的查询的距离最近,则它将被标识为真正片,即:
Figure FDA0002352714980000015
其中
Figure FDA0002352714980000016
Figure FDA0002352714980000017
分别是
Figure FDA0002352714980000018
Figure FDA0002352714980000019
的表示;
本申请的方法由两个子网组成,分别是图像特征提取子网和帧特征聚合子网,来学习一个有区别的视频表示。第一个子网提取T帧的特征,即
Figure FDA00023527149800000110
其中
Figure FDA00023527149800000111
第二个子网将Tframe特征聚合为单个视频表示向量。本申请举例说明第二个子网,这是这项工作的重点在图2。本申请将在下面的段落中简要演示DTP和TSA的计算;
DTP设计用于捕获相邻帧之间的局部时间线索;DTP以F中的帧特征作为输入,输出更新后的帧特征
Figure FDA00023527149800000112
每个
Figure FDA00023527149800000113
是通过聚集其相邻帧特征来计算的,即
Figure FDA0002352714980000021
其中
Figure FDA0002352714980000022
表示DTP模型,f′t由2×i相邻帧计算;
TSA模型利用非连续帧之间的关系来捕获全局时间线索。它以
Figure FDA0002352714980000023
为输入,输出时间特征
Figure FDA0002352714980000024
每个
Figure FDA0002352714980000025
是通过考虑
Figure FDA0002352714980000026
内特征之间的上下文关系来计算的,即
Figure FDA0002352714980000027
其中
Figure FDA0002352714980000028
是TSA模型;
每个f″t集合了局部和全局时间线索。最后,本申请在
Figure FDA0002352714980000029
上应用平均池来生成基于视频的行人再识别的固定长度ReID,即
Figure FDA00023527149800000210
4.根据权利要求1所述的方法,其特征在于,所述颞锥卷积包括:
假设
Figure FDA00023527149800000211
是具有时间宽度W的卷积核,当输入帧特征
Figure FDA00023527149800000212
时,具有扩张率r的扩张卷积的输出
Figure FDA00023527149800000213
可以定义为:
Figure FDA00023527149800000214
Figure FDA00023527149800000215
其中
Figure FDA00023527149800000216
是包含
Figure FDA00023527149800000217
的输出特征的集合;W(r)表示具有扩张率r的扩张卷积;
膨胀率r表示采样帧特征的时间步长。它决定了被扩张的时间卷积所覆盖的时间尺度;使用r=2,w=3,每个输出特征对应于五个相邻帧的时间范围;标准卷积可以看作是r=1的特例,它覆盖了三个相邻的帧;与标准卷积相比,r≥2的扩张时间卷积具有相同数量的参数可供学习,但在不降低时间分辨率的情况下扩大了神经元的感受野;这种特性使得扩展时间卷积成为一种有效的多尺度时间特征学习策略;
DTP卷积由N个平行的扩张卷积组成,其扩张率逐渐增加以覆盖各种时间范围;对于第n次扩张的颞卷积,将其扩张率rn设为rn=2n-1,以有效地扩大颞感受野;将N个分支的输出串接为更新的时间特征
Figure FDA0002352714980000031
即计算
Figure FDA0002352714980000032
Figure FDA0002352714980000033
其中ri是第i个扩张的颞叶卷积的扩张率。
5.根据权利要求2所述的方法,其特征在于,所述TSA模型数据利用非连续帧之间的关系来捕获全局时间线索,其含义为:
TSA是计算T×T大小的注意遮罩M来存储所有帧特征之间的上下文关系;给定输入
Figure FDA0002352714980000034
TSA首先应用两个卷积层,然后进行批量归一化,然后重新生成特征映射尺寸(Nd/α)×T的B和C;在C和B的转置之间执行矩阵乘法,得到T×T大小的时间注意掩码M;
M用于更新
Figure FDA0002352714980000035
以嵌入额外的全局时间线索;将
Figure FDA0002352714980000036
输入卷积层,生成一个新的
Figure FDA0002352714980000037
特征映射,其大小为(Nd/α)×T,
Figure FDA0002352714980000038
与M相乘,然后将输入卷积层,将其大小恢复为Nd×T,通过残差连接将得到的特征映射与原
Figure FDA0002352714980000039
融合,得到更新后的时间特征
Figure FDA00023527149800000315
TSA的计算可以表示为
Figure FDA00023527149800000311
其中W表示最后一个卷积核;将W初始化为0以简化剩余连接的优化;α控制TSA中的参数大小;把α设为2;对
Figure FDA00023527149800000312
进行平均池处理,得到最终的
Figure FDA00023527149800000313
将F,
Figure FDA00023527149800000314
M和f可视化,这些都是在有遮挡的轨迹上计算出来的;DTP通过对相邻特征进行卷积,合理地减少了遮挡;TSA主要通过计算注意遮罩M来减轻遮挡,该注意遮罩M存储的全局上下文关系;对于M,
Figure FDA0002352714980000041
上的平均池可以在概念上表示为:
Figure FDA0002352714980000042
其中
Figure FDA0002352714980000043
是t维加权向量。请注意,公式(8)省略了
Figure FDA0002352714980000044
前后的卷积,以简化表达式;m中被遮挡的帧呈现较低的权重,指示其特征在平均汇集期间被抑制。
CN201911422601.0A 2019-12-31 2019-12-31 用于基于视频的人再识别的全局局部时间表示方法 Active CN111563404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911422601.0A CN111563404B (zh) 2019-12-31 2019-12-31 用于基于视频的人再识别的全局局部时间表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911422601.0A CN111563404B (zh) 2019-12-31 2019-12-31 用于基于视频的人再识别的全局局部时间表示方法

Publications (2)

Publication Number Publication Date
CN111563404A true CN111563404A (zh) 2020-08-21
CN111563404B CN111563404B (zh) 2023-05-26

Family

ID=72074030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911422601.0A Active CN111563404B (zh) 2019-12-31 2019-12-31 用于基于视频的人再识别的全局局部时间表示方法

Country Status (1)

Country Link
CN (1) CN111563404B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质
EP3995992A1 (en) * 2020-11-06 2022-05-11 Toyota Jidosha Kabushiki Kaisha Method and system for detecting an action in a video clip

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374233A1 (en) * 2017-06-27 2018-12-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法
CN110163041A (zh) * 2018-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频行人再识别方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374233A1 (en) * 2017-06-27 2018-12-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN110163041A (zh) * 2018-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频行人再识别方法、装置及存储介质
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANTAO YAO , SHILIANG ZHANG等: "Deep Representation Learning With Part Loss for Person Re-Identification" *
刘一敏;蒋建国等: "基于多尺度帧率的视频行人再识别方法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3995992A1 (en) * 2020-11-06 2022-05-11 Toyota Jidosha Kabushiki Kaisha Method and system for detecting an action in a video clip
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112529934B (zh) * 2020-12-02 2023-12-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112364852B (zh) * 2021-01-13 2021-04-20 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111563404B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111563404B (zh) 用于基于视频的人再识别的全局局部时间表示方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN109934117B (zh) 基于生成对抗网络的行人重识别检测方法
Wang et al. Self-domain adaptation for face anti-spoofing
Hanson et al. Bidirectional convolutional lstm for the detection of violence in videos
Chen et al. Object tracking across non-overlapping views by learning inter-camera transfer models
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
CN110853074B (zh) 一种利用光流增强目标的视频目标检测网络系统
Tseng et al. Regularizing meta-learning via gradient dropout
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
Lin et al. Gaitgl: Learning discriminative global-local feature representations for gait recognition
Li et al. Appearance and motion enhancement for video-based person re-identification
CN111597978B (zh) 基于StarGAN网络模型实现行人重识别图片自动生成的方法
CN109447014A (zh) 一种基于双通道卷积神经网络的视频在线行为检测方法
Wang et al. Exploiting complementary dynamic incoherence for deepfake video detection
CN112801019A (zh) 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN112149500A (zh) 一种部分遮挡的人脸识别小样本学习方法
Zeng et al. Anchor association learning for unsupervised video person re-identification
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN116824695A (zh) 一种基于特征去噪的行人再识别非局部防御方法
CN112446245A (zh) 一种基于运动边界小位移的高效运动表征方法及装置
CN114360058B (zh) 一种基于行走视角预测的跨视角步态识别方法
CN114429646A (zh) 基于深度自注意力变换网络的步态识别方法
CN110046608A (zh) 基于半耦合鉴别字典学习的叶遮挡行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant