CN115410222A - 一种姿态感知的视频行人再识别网络 - Google Patents

一种姿态感知的视频行人再识别网络 Download PDF

Info

Publication number
CN115410222A
CN115410222A CN202210886958.XA CN202210886958A CN115410222A CN 115410222 A CN115410222 A CN 115410222A CN 202210886958 A CN202210886958 A CN 202210886958A CN 115410222 A CN115410222 A CN 115410222A
Authority
CN
China
Prior art keywords
posture
feature
pedestrian
module
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210886958.XA
Other languages
English (en)
Inventor
齐美彬
陈翠群
张朋
吴年祥
管燕林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Langba Smart Technology Co ltd
Original Assignee
Anhui Langba Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Langba Smart Technology Co ltd filed Critical Anhui Langba Smart Technology Co ltd
Priority to CN202210886958.XA priority Critical patent/CN115410222A/zh
Publication of CN115410222A publication Critical patent/CN115410222A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种姿态感知的视频行人再识别网络,属于计算机视觉领域,包括姿态感知的表征特征提取网络和姿态感知的步态特征提取网络,姿态感知的表征特征提取网络包括表观特征提取器、姿态感知的局部划分模块、帧‑序列注意力模块和局部特征时序聚合模块;姿态感知的步态特征提取网络包括姿态特征提取器、姿态帧特征模块和姿态帧时序聚合模块,姿态帧时序聚合模块、局部特征时序聚合模块和网络整体损失函数模块连接。姿态帧时序聚合模块、局部特征时序聚合模块和网络整体损失函数模块连接。本发明得到行人视频序列的人体姿态信息。提取行人视频的表观特征和步态特征,从而实现语义级的行人视频序列匹配,缓解噪声因素的影响。

Description

一种姿态感知的视频行人再识别网络
技术领域
本发明涉及一种计算机视觉领域,具体是一种姿态感知的视频行人再识别网络。
背景技术
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。
随着社会经济的快速发展,人们对公共安全的意识越来越高,现有大量摄像监控设备被安装在各种室内和室外环境中,构建了大规模监控系统。该系统通常捕获了大量行人图像和视频数据,但如何从这些海量数据中获得有用线索,高效智能地完成对图像和视频内容的处理和分析,是当前大规模监控系统需要的关键能力之一。行人再识别(personre-identification,ReID)作为视频监控系统中的一项关键技术,在给定待查询行人(query)图片或者视频序列时,实现了在跨视域场景下拍摄的行人图像或者视频库中快速准确地检索出相应的目标行人图片或视频。该技术在智能安防、商超运营等领域具有较高的应用前景和价值。例如:在安防领域,当需要在一个庞大的视频监控系统中寻找一个目标人物时,利用人眼观察海量的视频图像数据进行搜索将会是一个耗时耗力的低效过程。而通过行人再识别技术可以实现行人特征的自动提取,快速完成行人图像匹配,高效辅助执法机关人员的工作,缩减人力资源的耗费。此外,在一些大型商业超市中,行人再识别技术可以实现顾客追踪,实时反映顾客的逛店路径,通过对顾客行走轨迹的分析,有助于商品摆放布局的优化调整。然而,由于光照变化、遮挡、姿态变化等一些不可避免的噪声因素的存在,增大了同一行人的不同图片/视频间的差异,缩小了不同行人的不同图片/视频间的距离,使得行人再识别研究极具有挑战性。
由于行人运动信息具有类内差异大、类间差异小的特性,基于序列的方法利用时序上的运动信息来区分不同的行人是比较困难的。因此,基于视频的行人再识别模型性能通常取决于行人的外观特征而不是运动信息。现有基于帧的方法提出学习视频单帧图片中的时序不变信息(例如行人穿着信息和外貌信息)来提取具有判别力的视频级行人表征。一些方法提出从全局视角探索单帧图片特征,使得视频行人再识别模型性能易受遮挡、背景等噪声因素的影响。还有一些方法结合局部区域划分方法,提取视频序列的行人局部特征。然而,这些方法没有显式定位局部遮挡区域,难以提取具有判别力的视频级表征。另一方面,行人步态特征作为一种身份相关信息,与光照变化和行人穿着无关,一类特殊的具有判别力的行人表征,可以辅助行人视频序列的匹配,这一点被现有大多数方法所忽略。
发明内容
对于现有的产生的问题,本发明的目的在于提供一种姿态感知的视频行人再识别网络,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种姿态感知的视频行人再识别网络,包括姿态感知的表征特征提取网络和姿态感知的步态特征提取网络,姿态感知的表征特征提取网络旨在利用行人的关键点信息划分特征图,并对每帧图片中的非遮挡局部特征进行时序聚合,最终得到行人的视频级局部特征;姿态感知的步态特征网络旨在利用卷积神经网络从行人的姿态信息中提取步态特征,最终该网络结合行人的表观局部特征和步态特征进行行人间的匹配和检索;
姿态感知的表征特征提取网络包括表观特征提取器、姿态感知的局部划分模块、帧- 序列注意力模块和局部特征时序聚合模块;姿态感知的局部划分模块输入端和表观特征提取器连接,表观特征提取器输入图像序列;姿态感知的局部划分模块输出端和帧-序列注意力模块连接,帧-序列注意力模块和局部特征时序聚合模块连接,
姿态感知的步态特征提取网络包括姿态特征提取器、姿态帧特征模块和姿态帧时序聚合模块,姿态帧特征模块输入端和姿态特征提取器连接,姿态特征提取器输入姿态序列;
姿态特征提取器和姿态感知的局部划分模块连接,姿态帧特征模块和姿态帧时序聚合模块连接,姿态帧时序聚合模块通过通道级联和局部特征时序聚合模块连接;
姿态帧时序聚合模块、局部特征时序聚合模块和网络整体损失函数模块连接。
作为本发明进一步的方案:所述的姿态感知的局部划分模块通过姿态信息的指导实现单帧图片的自适应划分,具体地,利用行人姿态信息学习一种节点级部分映射,该映射描述了每个特征节点属于特定区域的可能性,其中,部分映射M∈Rp×H×W可以表示为:
M=Wθ(Sp) (1)
其中θ(·)表示参数为Wθ的特征嵌入函数,由1×1卷积层和Sigmoid激活层组成,该函数旨在将结构特征编码为局部注意力映射,因此第i帧图片的第j部分局部特征
Figure BDA0003766182950000031
可以定义为:
Figure BDA0003766182950000032
作为本发明进一步的方案:所述的帧-序列注意力模块旨在通过建模帧与帧之间的空间关系,自适应定位遮挡区域,对于第i帧的第p部分的特征fip,建立该部分特征与时序上剩余对应部分特征之间的关系来描述特征fip是否被遮挡:
Rip=φ(fip,φ(fjp,j≠i) (3)
式中,φ表示相似度计算,φ表示池化操作,用于产生剩余帧时序上的全局特征,相似度值大,则该区域为有效区域的可能性就越大,最后,基于相似度值,保留有效区域进行视频级表观特征学习。
作为本发明进一步的方案:所述的局部特征时序聚合模块为了探索序列中的空间和时间依赖性,超图(Hypergraphs)允许节点通过图中的消息传递与其邻居进行通信,与标准图模型相比,超图可以对涉及多个节点的高阶相关性进行建模,这更适合于对序列中部分特征的相关性进行建模;
本发明提出构建超图G=(V,ε)来捕获时空依赖关系,其中,V表示顶点和ε表示超边;将p个局部特征fi∈{1,2,...p}表示为图节点,定义一系列超边来建模超图中的短时和长时相关性,对于图节点fi,根据节点之间的特征相似度,找到这个节点在特定时间范围内的K个最近邻节点,然后,用一个超边将这个K+1节点连接起来:
Figure BDA0003766182950000033
式中,Nk(g)表示K个近邻的邻居集,|g|表示节点间的时间距离,Tt表示时间范围(Tt设置为小值表示短时相关性建模,Tt设置为大值表示长时相关性建模);
对于节点fi,使用Adj(fi)={e1,e2,...eki}来表示与该节点相连的所有超边;对于一条超边,将除节点fi以外的该超边包含的所有节点特征进行平均,结果作为该超边的特征:
Figure BDA0003766182950000041
通过计算超边与节点fi的相关性来评估该超边的重要性,基于超边的重要性对超边信息进行了聚合,如下:
ni=∑kSoftmax(D(fi,mik)mik) (6)
式中,D(g)表示相似度度量;获得超边信息后,将节点特征和超边特征进行级联,再利用一个全连接层来更新节点特征:
hi=σ(W[fi,ni]) (7)
作为本发明进一步的方案:所述的姿态感知的步态特征提取网络拟利用Transformers 实现姿态帧之间的交互,最终输出聚合后的步态特征;
给定姿态帧的特征Fg∈iT×C,一个标准的Transformer模型计算公式如下:
F′g=Fg+softmax((FgK)(FgQ)T)Fg (8)
Fg+=σ(FgFC1)FC2 (9)
式中,(FgK)(FgQ)T∈iT×T描述了姿态帧之间的关系,FC1和FC2分别表示两个全连接层;
作为本发明进一步的方案:所述的网络整体损失函数模块结合分类损失和度量损失来监督网络的特征学习,并利用交叉熵损失作为分类损失,具体表示为:
Figure BDA0003766182950000042
其中,P表示一个批次(batch)中的样本身份总量,K表示每个类中行人视频序列数量;yi,a表示视频序列
Figure BDA0003766182950000043
的真实标签;
Figure BDA0003766182950000044
是指网络分类器层输出的视频样本预测概率;此外,batch-hard三元组损失函数[13]可以优化不同类间的关系,即缩小正样本对之间的差异,增大负样本对之间的距离;因此,本发明利用该损失函数实现视频级特征的度量学习,公式表示为:
Figure BDA0003766182950000051
其中,
Figure BDA0003766182950000052
分别表示锚点、正样本和负样本;D(·)表示余弦距离,m表示用来控制正样本对间距离和负样本对间距离之差的超参数;
Figure BDA0003766182950000053
表示函数max(0,x)。
与现有技术相比;本发明的有益效果是:本发明基于超图机制,自适应定位视频帧中有效局部区域,挖掘局部区域间的空间和时间相关性,提取具有判别力视频级行人局部表征,减轻遮挡对模型性能的影响。
本发明基于Transformer模型,利用行人姿态信息显式提取行人步态特征,增强视频级表征的判别力。
本发明属于计算机视觉领域,是全天候室内外监控系统的一项重要技术,可以用于辅助应急搜救人员、犯罪侦查等事件。基于视频的行人再识别通过挖掘视频序列中丰富的空间和时间信息来实现跨摄像头下的行人匹配。然而,帧与帧之间通常存在遮挡和行人姿势的变化,这使得提取有效的行人视频判别力信息是困难的。本发明提出一种姿态感知的视频行人再识别算法。该算法提出利用行人结构信息来指导行人视频序列的表观特征和步态特征的学习,促进具有判别力的视频级特征提取,从而减轻姿态变化、遮挡以及背景等噪声因素对模型性能的影响。具体地,本发明首先提取视频序列中各帧图片的行人关键点信息,并设计一种轻量级网络编码行人关键点信息,得到行人视频序列的人体姿态信息。然后,在结构信息的指导下,基于超图和Transformer模型显式提取行人视频的表观特征和步态特征,从而实现语义级的行人视频序列匹配,缓解噪声因素的影响。
附图说明
图1为姿态感知的视频行人再识别网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图;对本发明实施例中的技术方案进行清楚、完整地描述;显然;所描述的实施例仅仅是本发明一部分实施例;而不是全部的实施例。基于本发明中的实施例;本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例;都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设有”、“相连”、“连接”应做广义理解;例如,可以是固定连接,也可以是可拆卸连接,或一体地连接,可以是机械连接,也可以是电连接,可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
视频行人再识别(video-based person re-identification)通过挖掘视频数据中丰富的时空信息实现跨摄像头场景下行人间的匹配与检索。与基于静态图像的行人再识别研究相比,由于现有的监控系统通常直接记录的是行人视频信息而非单张静态图片信息,基于视频的行人再识别研究更加符合真实场景需求,已受到了研究人员的广泛关注。现有基于视频的行人再识别方法大都利用循环神经网络、注意力机制或者3D卷积神经网络来提取视频中的时序信息。这些方法通常致力于研究以下三个内容:帧级特征提取器的设计、时序信息的建模和损失函数的选择。根据提取视频序列特征方式的不同可以将这些方法分为以下两类:(1)基于序列的方法(sequence-based)利用3D卷积神经网络或者循环神经网络直接提取时序表观和运动信息;(2)基于帧的方法(frame-based利用2D卷积神经网络分别提取单帧图片的特征,并结合时序池化或者注意力机制融合这些单帧特征。
然而,由于行人运动信息具有类内差异大、类间差异小的特性,使得视频行人再识别模型性能易受遮挡、背景等噪声因素的影响。为了解决上述问题,本发明设计一种姿态感知的视频特征学习网络,旨在利用行人姿态信息提取鲁棒的行人表征特征和行人步态特征。首先,该网络基于超图机制自适应建模行人序列局部区域间的相似性关系,提取有效区域的视频级行人局部表观特征。然后,基于行人姿态信息显式建模行人步态特征,并在时间、空间域上融合局部表征特征和步态特征,得到鲁棒的视频级行人表征。该发明利用行人姿态信息联合提取鲁棒的行人表观特征和步态特征,减轻了视频序列中遮挡、姿态变化、跨视角等噪声因素对模型性能的影响,提升视频行人识别率。
当行人被遮挡或者行人穿着相似时,有效地学习具有判别力的行人视频特征对于视频行人再识别任务至关重要。本发明设计一种姿态感知的视频特征学习网络,该网络包含两个主要分支网络,分别是:姿态感知的表征特征提取网络、姿态感知的步态特征提取网络。
请参阅图1所示,一种姿态感知的视频行人再识别网络,包括姿态感知的表征特征提取网络和姿态感知的步态特征提取网络。
为了准确划分行人的局部区域,实现行人局部表观区域间的空间对齐,本发明借助姿态估计开源算法OpenPose估计视频中每帧图片中的行人关键点信息,得到大小为 T×K×H×W的关键点热力图。其中,K表示热力图个数。
姿态感知的表征特征提取网络旨在利用行人的关键点信息划分特征图,并对每帧图片中的非遮挡局部特征进行时序聚合,最终得到行人的视频级局部特征;姿态感知的步态特征网络旨在利用卷积神经网络从行人的姿态信息中提取步态特征;最终该网络结合行人的表观局部特征和步态特征进行行人间的匹配和检索。
参考现有大多数视频行人再识别方法,本发明利用ResNet-50网络提取行人视频序列特征,得到大小为T×C×H×W视频特征图。由于现实场景的复杂性,行人视频序列的帧与帧之间通常存在大量遮挡等噪声因素,阻碍了行人间的正确匹配。为解决这一问题,本发明提出姿态感知的表观特征学习方法,旨在在行人姿态信息的指导下实现行人有效的表观特征提取,具体包含以下三个组成部分:姿态感知的局部划分、帧-序列注意力学习、局部特征时序聚合。
1)姿态感知的局部划分:
假设一张单帧图片的局部序列被定义为
Figure BDA0003766182950000071
(p为局部区域数量),本节方法旨在通过姿态信息的指导实现单帧图片的自适应划分。由于视频序列的单帧图片中存在复杂的噪声因素,简单的水平池化方法不能实现准确的行人图片区域划分。因此,本发明采用一种更精细的分割方法来学习更精确的行人部件级表示。具体地,利用行人姿态信息学习一种节点级部分映射,该映射描述了每个特征节点属于特定区域的可能性。其中,部分映射M∈Rp×H×W可以表示为:
M=Wθ(Sp) (1)
其中θ(·)表示参数为Wθ的特征嵌入函数,由1×1卷积层和Sigmoid激活层组成。该函数旨在将结构特征编码为局部注意力映射,因此第i帧图片的第j部分局部特征
Figure BDA0003766182950000081
可以定义为:
Figure BDA0003766182950000082
2)帧-序列注意力学习:
上一节中我们得到了每帧图片的准确划分的局部区域,但是还是无法区分有效的和无效的行人区域。考虑到行人视频序列中帧与帧之间存在时序空间关系,本节设计一种帧- 序列注意力模块,旨在通过建模帧与帧之间的空间关系,自适应定位遮挡区域。对于第i 帧的第p部分的特征fip,建立该部分特征与时序上剩余对应部分特征之间的关系来描述特征fip是否被遮挡:
Rip=φ(fip,φ(fjp,j≠i) (3)
式中,φ表示相似度计算,φ表示池化操作,用于产生剩余帧时序上的全局特征。相似度值大,则该区域为有效区域的可能性就越大。最后,基于相似度值,保留有效区域进行视频级表观特征学习。
3)局部特征时序聚合:
在提取每一帧的有效局部特征之后,如何获得具有判别力的行人视频级局部表征是另外一个关键问题。为了生成可靠的行人表观信息,必须同时考虑各个特征的空间和时间相关性。为了探索序列中的空间和时间依赖性,超图(Hypergraphs)允许节点通过图中的消息传递与其邻居进行通信。与标准图模型相比,超图可以对涉及多个节点的高阶相关性进行建模,这更适合于对序列中部分特征的相关性进行建模。
本发明提出构建超图G=(V,ε)来捕获时空依赖关系,其中,V表示顶点和ε表示超边。将p个局部特征fi∈{1,2,...p}表示为图节点。定义一系列超边来建模超图中的短时和长时相关性。对于图节点fi,根据节点之间的特征相似度,找到这个节点在特定时间范围内的K个最近邻节点,然后,用一个超边将这个K+1节点连接起来:
Figure BDA0003766182950000083
式中,Nk(g)表示K个近邻的邻居集,|g|表示节点间的时间距离,Tt表示时间范围(Tt设置为小值表示短时相关性建模,Tt设置为大值表示长时相关性建模)。
对于节点fi,使用Adj(fi)={e1,e2,...eki}来表示与该节点相连的所有超边。对于一条超边,将除节点fi以外的该超边包含的所有节点特征进行平均,结果作为该超边的特征:
Figure BDA0003766182950000091
通过计算超边与节点fi的相关性来评估该超边的重要性,基于超边的重要性对超边信息进行了聚合,如下:
ni=∑kSoftmax(D(fi,mik)mik) (6)
式中,D(g)表示相似度度量。获得超边信息后,将节点特征和超边特征进行级联,再利用一个全连接层来更新节点特征:
hi=σ(W[fi,ni]) (7)
姿态感知的步态特征提取网络:在得到姿态帧的底层特征之后,如何聚合这些特征是提取有效步态特征的关键一步。Transformers模型可以很好的处理序列型数据,相比于 RNN/LSTM,Transformers有效避免了递归运算,允许并行计算(减少训练时间),并减少由于长期依赖性而导致的性能下降。因此,本项目拟利用Transformers实现姿态帧之间的交互,最终输出聚合后的步态特征。
给定姿态帧的特征Fg∈iT×C,一个标准的Transformer模型计算公式如下:
F′g=Fg+softmax((FgK)(FgQ)T)Fg (8)
Fg+=σ(FgFc1)FC2 (9)
式中,(FgK)(FgQ)T∈iT×T描述了姿态帧之间的关系,FC1和FC2分别表示两个全连接层。
网络整体损失函数:
参考现有大多数行人再识别方法,本发明结合分类损失和度量损失来监督网络的特征学习,并利用交叉熵损失作为分类损失,具体表示为:
Figure BDA0003766182950000101
其中,P表示一个批次(batch)中的样本身份总量,K表示每个类中行人视频序列数量。yi,a表示视频序列
Figure BDA0003766182950000102
的真实标签。
Figure BDA0003766182950000103
是指网络分类器层输出的视频样本预测概率。此外,batch-hard三元组损失函数[13]可以优化不同类间的关系,即缩小正样本对之间的差异,增大负样本对之间的距离。因此,本发明利用该损失函数实现视频级特征的度量学习,公式表示为:
Figure BDA0003766182950000104
其中,
Figure BDA0003766182950000105
分别表示锚点、正样本和负样本。D(·)表示余弦距离,m表示用来控制正样本对间距离和负样本对间距离之差的超参数。
Figure BDA0003766182950000106
表示函数max(0,x)。
在测试阶段,利用局部视频级表观特征和步态特征的的级联视频级特征来度量两个行人视频序列之间的距离。
本发明基于超图机制,自适应定位视频帧中有效局部区域,挖掘局部区域间的空间和时间相关性,提取具有判别力视频级行人局部表征,减轻遮挡对模型性能的影响。
本发明基于Transformer模型,利用行人姿态信息显式提取行人步态特征,增强视频级表征的判别力。
本发明属于计算机视觉领域,是全天候室内外监控系统的一项重要技术,可以用于辅助应急搜救人员、犯罪侦查等事件。基于视频的行人再识别通过挖掘视频序列中丰富的空间和时间信息来实现跨摄像头下的行人匹配。然而,帧与帧之间通常存在遮挡和行人姿势的变化,这使得提取有效的行人视频判别力信息是困难的。本发明提出一种姿态感知的视频行人再识别算法。该算法提出利用行人结构信息来指导行人视频序列的表观特征和步态特征的学习,促进具有判别力的视频级特征提取,从而减轻姿态变化、遮挡以及背景等噪声因素对模型性能的影响。具体地,本发明首先提取视频序列中各帧图片的行人关键点信息,并设计一种轻量级网络编码行人关键点信息,得到行人视频序列的人体姿态信息。然后,在结构信息的指导下,基于超图和Transformer模型显式提取行人视频的表观特征和步态特征,从而实现语义级的行人视频序列匹配,缓解噪声因素的影响。
对于本领域技术人员而言;显然本发明不限于上述示范性实施例的细节;而且在不背离本发明的精神或基本特征的情况下;能够以其他的具体形式实现本发明。因此;无论从哪一点来看;均应将实施例看作是示范性的;而且是非限制性的;本发明的范围由所附权利要求而不是上述说明限定;因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外;应当理解;虽然本说明书按照实施方式加以描述;但并非每个实施方式仅包含一个独立的技术方案;说明书的这种叙述方式仅仅是为清楚起见;本领域技术人员应当将说明书作为一个整体;各实施例中的技术方案也可以经适当组合;形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种姿态感知的视频行人再识别网络,其特征在于,包括姿态感知的表征特征提取网络和姿态感知的步态特征提取网络,姿态感知的表征特征提取网络旨在利用行人的关键点信息划分特征图,并对每帧图片中的非遮挡局部特征进行时序聚合,最终得到行人的视频级局部特征;姿态感知的步态特征网络旨在利用卷积神经网络从行人的姿态信息中提取步态特征,最终该网络结合行人的表观局部特征和步态特征进行行人间的匹配和检索;
姿态感知的表征特征提取网络包括表观特征提取器、姿态感知的局部划分模块、帧-序列注意力模块和局部特征时序聚合模块;姿态感知的局部划分模块输入端和表观特征提取器连接,表观特征提取器输入图像序列;姿态感知的局部划分模块输出端和帧-序列注意力模块连接,帧-序列注意力模块和局部特征时序聚合模块连接,
姿态感知的步态特征提取网络包括姿态特征提取器、姿态帧特征模块和姿态帧时序聚合模块,姿态帧特征模块输入端和姿态特征提取器连接,姿态特征提取器输入姿态序列;
姿态特征提取器和姿态感知的局部划分模块连接,姿态帧特征模块和姿态帧时序聚合模块连接,姿态帧时序聚合模块通过通道级联和局部特征时序聚合模块连接;
姿态帧时序聚合模块、局部特征时序聚合模块和网络整体损失函数模块连接。
姿态帧时序聚合模块、局部特征时序聚合模块和网络整体损失函数模块连接。
2.根据权利要求1所述的姿态感知的视频行人再识别网络,其特征在于,所述的姿态感知的局部划分模块通过姿态信息的指导实现单帧图片的自适应划分,具体地,利用行人姿态信息学习一种节点级部分映射,该映射描述了每个特征节点属于特定区域的可能性,其中,部分映射M∈Rp×H×W可以表示为:
M=Wθ(Sp) (1)
其中θ(·)表示参数为Wθ的特征嵌入函数,由1×1卷积层和Sigmoid激活层组成,该函数旨在将结构特征编码为局部注意力映射,因此第i帧图片的第j部分局部特征
Figure FDA0003766182940000011
可以定义为:
Figure FDA0003766182940000012
3.根据权利要求2所述的姿态感知的视频行人再识别网络,其特征在于,所述的帧-序列注意力模块旨在通过建模帧与帧之间的空间关系,自适应定位遮挡区域,对于第i帧的第p部分的特征fip,建立该部分特征与时序上剩余对应部分特征之间的关系来描述特征fip是否被遮挡:
Rip=φ(fip,φ(fjp,j≠i) (3)
式中,φ表示相似度计算,φ表示池化操作,用于产生剩余帧时序上的全局特征,相似度值大,则该区域为有效区域的可能性就越大,最后,基于相似度值,保留有效区域进行视频级表观特征学习。
4.根据权利要求3所述的姿态感知的视频行人再识别网络,其特征在于,所述的局部特征时序聚合模块为了探索序列中的空间和时间依赖性,超图(Hypergraphs)允许节点通过图中的消息传递与其邻居进行通信,与标准图模型相比,超图可以对涉及多个节点的高阶相关性进行建模,这更适合于对序列中部分特征的相关性进行建模;
本发明提出构建超图G=(V,ε)来捕获时空依赖关系,其中,V表示顶点和ε表示超边;将p个局部特征fi∈{1,2,...p}表示为图节点,定义一系列超边来建模超图中的短时和长时相关性,对于图节点fi,根据节点之间的特征相似度,找到这个节点在特定时间范围内的K个最近邻节点,然后,用一个超边将这个K+1节点连接起来:
Figure FDA0003766182940000021
式中,Nk(g)表示K个近邻的邻居集,|g|表示节点间的时间距离,Tt表示时间范围(Tt设置为小值表示短时相关性建模,Tt设置为大值表示长时相关性建模);
对于节点fi,使用Adj(fi)={e1,e2,...eki}来表示与该节点相连的所有超边;对于一条超边,将除节点fi以外的该超边包含的所有节点特征进行平均,结果作为该超边的特征:
Figure FDA0003766182940000022
通过计算超边与节点fi的相关性来评估该超边的重要性,基于超边的重要性对超边信息进行了聚合,如下:
ni=∑kSoftmax(D(fi,mik)mik) (6)
式中,D(g)表示相似度度量;获得超边信息后,将节点特征和超边特征进行级联,再利用一个全连接层来更新节点特征:
hi=σ(W[fi,ni]) (7)。
5.根据权利要求4所述的姿态感知的视频行人再识别网络,其特征在于,所述的姿态感知的步态特征提取网络拟利用Transformers实现姿态帧之间的交互,最终输出聚合后的步态特征;
给定姿态帧的特征Fg∈iT×C,一个标准的Transformer模型计算公式如下:
F′g=Fg+softmax((FgK)(FgQ)T)Fg (8)
Fg+=σ(F′gFC1)FC2 (9)
式中,(FgK)(FgQ)T∈iT×T描述了姿态帧之间的关系,FC1和FC2分别表示两个全连接层。
6.根据权利要求5所述的姿态感知的视频行人再识别网络,其特征在于,所述的网络整体损失函数模块结合分类损失和度量损失来监督网络的特征学习,并利用交叉熵损失作为分类损失,具体表示为:
Figure FDA0003766182940000031
其中,P表示一个批次(batch)中的样本身份总量,K表示每个类中行人视频序列数量;yi,a表示视频序列
Figure FDA0003766182940000032
的真实标签;
Figure FDA0003766182940000033
是指网络分类器层输出的视频样本预测概率;此外,batch-hard三元组损失函数[13]可以优化不同类间的关系,即缩小正样本对之间的差异,增大负样本对之间的距离;因此,本发明利用该损失函数实现视频级特征的度量学习,公式表示为:
Figure FDA0003766182940000034
其中,
Figure FDA0003766182940000035
分别表示锚点、正样本和负样本;D(·)表示余弦距离,m表示用来控制正样本对间距离和负样本对间距离之差的超参数;
Figure FDA0003766182940000036
表示函数max(0,x)。
CN202210886958.XA 2022-07-26 2022-07-26 一种姿态感知的视频行人再识别网络 Withdrawn CN115410222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210886958.XA CN115410222A (zh) 2022-07-26 2022-07-26 一种姿态感知的视频行人再识别网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210886958.XA CN115410222A (zh) 2022-07-26 2022-07-26 一种姿态感知的视频行人再识别网络

Publications (1)

Publication Number Publication Date
CN115410222A true CN115410222A (zh) 2022-11-29

Family

ID=84157904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210886958.XA Withdrawn CN115410222A (zh) 2022-07-26 2022-07-26 一种姿态感知的视频行人再识别网络

Country Status (1)

Country Link
CN (1) CN115410222A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563895A (zh) * 2023-07-11 2023-08-08 四川大学 基于视频的动物个体识别方法
CN116664730A (zh) * 2023-06-14 2023-08-29 北京百度网讯科技有限公司 感知模型的生成方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664730A (zh) * 2023-06-14 2023-08-29 北京百度网讯科技有限公司 感知模型的生成方法、装置、计算机设备及存储介质
CN116563895A (zh) * 2023-07-11 2023-08-08 四川大学 基于视频的动物个体识别方法

Similar Documents

Publication Publication Date Title
Wang et al. Multi-scale dilated convolution of convolutional neural network for crowd counting
Hakeem et al. Video analytics for business intelligence
Wang et al. P2snet: Can an image match a video for person re-identification in an end-to-end way?
CN115410222A (zh) 一种姿态感知的视频行人再识别网络
Hou et al. Human tracking over camera networks: a review
CN110399835B (zh) 一种人员停留时间的分析方法、装置及系统
Chen et al. Multitarget tracking in nonoverlapping cameras using a reference set
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
Xu et al. Group activity recognition by using effective multiple modality relation representation with temporal-spatial attention
Acharya et al. Real-time detection and tracking of pedestrians in CCTV images using a deep convolutional neural network
Tomar et al. Crowd analysis in video surveillance: A review
Prasanna et al. RETRACTED ARTICLE: An effiecient human tracking system using Haar-like and hog feature extraction
Ji et al. A hybrid model of convolutional neural networks and deep regression forests for crowd counting
Miao et al. Abnormal behavior learning based on edge computing toward a crowd monitoring system
Li et al. Trajectory association for person re-identification
Kumaran et al. Classification of human activity detection based on an intelligent regression model in video sequences
Wu et al. Small target recognition method on weak features
Zhu et al. Correspondence-free dictionary learning for cross-view action recognition
Verma et al. Intensifying security with smart video surveillance
Zhao et al. Research on human behavior recognition in video based on 3DCCA
CN113627383A (zh) 一种用于全景智能安防的行人徘徊重识别方法
Truong Cong et al. Intelligent distributed surveillance system for people reidentification in a transportation environment
Khel et al. Hybridized YOLOv4 for detecting and counting people in congested crowds
Gupta et al. Analysis of Crowd Features based on Deep Learning
Siddiqui et al. IoT based Human Activity Recognition using Deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221129

WW01 Invention patent application withdrawn after publication