CN112800957A - 视频行人重识别方法、装置、电子设备及存储介质 - Google Patents

视频行人重识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112800957A
CN112800957A CN202110115551.2A CN202110115551A CN112800957A CN 112800957 A CN112800957 A CN 112800957A CN 202110115551 A CN202110115551 A CN 202110115551A CN 112800957 A CN112800957 A CN 112800957A
Authority
CN
China
Prior art keywords
video
pedestrian
recognition model
identification
input feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110115551.2A
Other languages
English (en)
Inventor
张宝华
朱思雨
谷宇
张继凯
黄显武
刘新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Science and Technology
Original Assignee
Inner Mongolia University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Science and Technology filed Critical Inner Mongolia University of Science and Technology
Priority to CN202110115551.2A priority Critical patent/CN112800957A/zh
Publication of CN112800957A publication Critical patent/CN112800957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频行人重识别方法、装置、电子设备及存储介质,通过重识别模型实现,在重识别模型中引入外观对齐模块,可以使待识别视频中行人的同一身体部位特征位置对齐,进而提高3D卷积核的特征提取能力。而且,通过将同一身体部位特征位置对齐,还可以降低目标对象的外观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征这种情况发生的可能性,可以提高重识别模型的识别精度。

Description

视频行人重识别方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频行人重识别 方法、装置、电子设备及存储介质。
背景技术
由于不断增长的公共安全需要,大规模高质量以及廉价的视频摄 像机设备被广泛应用在如机场、地铁、火车站、道路、学校、商场、 停车场、剧场等区域。覆盖这些区域的大规模摄像机网络提供了大量 的视频数据,用于异常或感兴趣事件检测、目标跟踪、司法部门取证 等。但由于视频数量巨大,仅靠人工准确地从摄像机网络中找到感兴 趣对象是费时费力的且低效的。因此,利用现代计算机视觉技术,对 大量视频数据进行自动分析,可以更快地处理数据并且显著提高监控 质量。由于在监控网络中不能都做到视域交叉,而且有建筑物等遮挡、 行人位置任意变动,导致行人视频网络中的运动轨迹出现中断,当行 人再出现时,需要重新进行关联,这就需要行人重识别方法。
行人重识别方法主要用于跟踪跨摄像头场景所拍摄的无重叠区 域内的行人,即在摄像头所拍摄的图像中检取感兴趣的行人图像,然 后在跨摄像头场景中检索与感兴趣的行人图像相似的目标。利用该技 术查找行人数据库感兴趣的行人图像,可以节省大量的时间和人力。 因此,行人重识别方法在智能安防、刑侦工作、搜寻走失人员以及图 像检索等方面有良好的应用前景。
行人重识别方法可分为图像行人重识别方法和视频行人重识别 方法,视频行人重识别方法中行人在多摄像头视角是一序列图像,因 而在视频中可以包含更多时空信息。因此需要使用三维卷积神经网络 (3D Convolutional Neural Networks,3D CNN)中的3D卷积核提取 时空信息,虽然3D卷积核善于提取视频中的时空信息,但由于视频 行人重识别方法的性能高度依赖于行人外观表示,可能导致在视频行 人重识别数据集中存在行人不对齐的问题,严重降低3D卷积核的特 征提取能力。而且,由于目标对象的同一身体部位在相邻帧的位置往 往不同,且尺寸会变化,目标对象的姿势也会发生变化。因而,目标 对象的外观形变时,3D卷积核会将属于目标对象的不同部位的特征 混为一个特征,导致3DCNN的识别精度降低。
发明内容
本发明实施例提供一种视频行人重识别方法、装置、电子设备及 存储介质,用以解决现有技术中存在的缺陷。
本发明实施例提供一种视频行人重识别方法,包括:
获取待识别视频;
将所述待识别视频输入至重识别模型,得到所述重识别模型输出 的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的 卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外 观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频 帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的 第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频 帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
根据本发明一个实施例的视频行人重识别方法,所述外观对齐模 块具体用于:
基于所述第一类输入特征图上每个位置的第一类特征以及所述 第一类特征与所述第二类输入特征图上的第二类特征之间的相似度, 确定所述第二类输入特征图上相应位置的初始重构特征;
基于非对称映射函数、所述第一类特征以及所述初始重构特征, 确定所述第二类输入特征图上相应位置的最终重构特征;
基于所述最终重构特征,确定最终重构得到的第二类输入特征图。
根据本发明一个实施例的视频行人重识别方法,所述重识别模型 的不同残差块之间还包含有共分割注意力模块;
所述共分割注意力模块用于基于注意力机制,提取所述第一类输 入特征图中包含的配饰特征。
根据本发明一个实施例的视频行人重识别方法,所述共分割注意 力模块包括空间注意力层,用于:
计算所述任一视频帧与所述待识别视频中除所述任一视频帧外 的其他视频帧中的局部描述符之间的归一化相关性;
基于所述归一化相关性,确定所述任一视频帧的空间掩码;
计算所述空间掩码与所述任一视频帧的第三类输入特征图的乘 积结果,以激活所述任一视频帧与所述其他视频帧一致的局部区域。
根据本发明一个实施例的视频行人重识别方法,所述共分割注意 力模块还包括通道注意力层,用于:
对所述第三类输入特征图进行全局平均池化,再将生成的特征向 量传递给多层感知机;
由所述多层感知机基于sigmoid函数激活输入的所述待识别视频 中各视频帧对应的特征向量,确定所述待识别视频中各视频帧对应的 通道重要性向量;
将所述待识别视频中所有视频帧对应的通道重要性向量在每个 维度上通过平均池化合并在一起,确定全局通道重要性向量;
将所述全局通道重要性向量与所述乘积结果相乘,以确定输出的 通道重要性权重向量。
根据本发明一个实施例的视频行人重识别方法,所述重识别模型 具体通过如下方法进行训练得到:
调整所述外观对齐模块和所述共分割注意力模块在所述残差网 络中的位置,分别得到多个备选重识别模型;
基于携带有行人标签的视频样本,分别对每个备选重识别模型进 行训练,并基于每个备选重识别模型的训练结果,确定所述重识别模 型。
根据本发明一个实施例的视频行人重识别方法,所述重识别模型 在训练过程中采用的损失函数为交叉熵损失结合三重态损失的损失 函数。
本发明实施例还提供一种视频行人重识别装置,包括:视频获取 模块和行人重识别模块。其中,
视频获取模块用于获取待识别视频;
行人重识别模块用于将所述待识别视频输入至重识别模型,得到 所述重识别模型输出的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的 卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外 观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频 帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的 第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频 帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述 程序时实现如上述任一种所述视频行人重识别方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述 视频行人重识别方法的步骤。
本发明实施例提供的视频行人重识别方法、装置、电子设备及存 储介质,通过重识别模型实现,在重识别模型中引入外观对齐模块, 可以使待识别视频中行人的同一身体部位特征位置对齐,进而提高 3D卷积核的特征提取能力。而且,通过将同一身体部位特征位置对 齐,还可以降低目标对象的外观形变时3D卷积核将属于目标对象的 不同部位的特征混为一个特征这种情况发生的可能性,可以提高重识 别模型的识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显 而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。
图1是本发明实施例提供的一种视频行人重识别方法的流程示 意图;
图2是本发明实施例提供的一种重识别模型的结构示意图;
图3是本发明实施例提供的一种视频行人重识别装置的结构示 意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护 的范围。
图1为本发明实施例中提供的一种视频行人重识别方法的流程 示意图,如图1所示,该方法包括:
S1,获取待识别视频;
S2,将所述待识别视频输入至重识别模型,得到所述重识别模型 输出的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的 卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外 观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频 帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的 第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频 帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
具体地,本发明实施例中提供的视频行人重识别方法,其执行主 体为服务器,该服务器可以是本地服务器也可以是云端服务器,本地 服务器可以是计算机、平板电脑或智能手机等,本发明实施例中对此 不作具体限定。
首先执行步骤S1。其中,待识别视频是指需要判断其中各视频 帧中是否包含有同一个行人的视频,该待识别视频的时长可以根据需 要进行设定,本发明实施例中对此不作具体限定。
然后执行步骤S2。采用的重识别模型可以基于残差网络构建, 残差网络中包含有多个残差块,每个残差块中包含有卷积层,卷积层 通过相应的卷积核实现卷积。在重识别模型中的卷积核为3D卷积核, 且重识别模型的不同残差块之间包含有外观对齐模块,外观对齐模块 用于基于待识别视频中任一视频帧对应的第一类输入特征图与任一 视频帧的相邻视频帧对应的第二类输入特征图之间的相似度,将任一 视频帧与相邻视频帧中表示同一身体部位特征的位置进行对齐。
第一类输入特征图是指任一视频帧对应的、输入至外观对齐模块 的特征图,第二类输入特征图是指相邻视频帧对应的、输入至外观对 齐模块的特征图。相邻视频帧的数量为1或2个,当任一视频帧非待 识别视频的首尾视频帧,相邻视频帧可以包括任一视频帧左右两侧相 邻的两个视频帧;当任一视频帧为待识别视频的首帧,相邻视频帧为 待识别视频中的第二个视频帧;当任一视频帧为待识别视频的尾帧, 相邻视频帧为待识别视频中的倒数第二个视频帧。
根据第一类输入特征图以及第二类输入特征图之间的相似度,可 以将任一视频帧与相邻视频帧中表示同一身体部位特征的位置进行 对齐,即以相似度为指引,搜索相邻视频帧的同一身体部位特征的位 置。其中,相似度具体可以是余弦相似度。通过外观对齐模块的引入, 可以使待识别视频中行人的同一身体部位特征位置对齐,进而提高 3D卷积核的特征提取能力。而且,通过将同一身体部位特征位置对 齐,还可以降低目标对象的外观形变时3D卷积核将属于目标对象的 不同部位的特征混为一个特征这种情况发生的可能性,可以提高重识 别模型的识别精度。
本发明实施例中采用的重识别模型可以通过携带有行人标签的 视频样本训练得到,行人标签是通过对视频样本中的行人进行标注得 到,视频样本中同一行人采用相同的行人标签进行标注。
本发明实施例中提供的视频行人重识别方法,通过重识别模型实 现,在重识别模型中引入外观对齐模块,可以使待识别视频中行人的 同一身体部位特征位置对齐,进而提高3D卷积核的特征提取能力。 而且,通过将同一身体部位特征位置对齐,还可以降低目标对象的外 观形变时3D卷积核将属于目标对象的不同部位的特征混为一个特征 这种情况发生的可能性,可以提高重识别模型的识别精度。
在上述实施例的基础上,外观对齐模块还可以引入对比注意力学 习注意力掩码,以解决部分行人的身体部位缺少的问题。
在上述实施例的基础上,所述外观对齐模块具体用于:
基于所述第一类输入特征图上每个位置的第一类特征以及所述 第一类特征与所述第二类输入特征图上的第二类特征之间的相似度, 确定所述第二类输入特征图上相应位置的初始重构特征;
基于非对称映射函数、所述第一类特征以及所述初始重构特征, 确定所述第二类输入特征图上相应位置的最终重构特征;
基于所述最终重构特征,确定最终重构得到的第二类输入特征图。
具体地,本发明实施例中首先确定第一类特征以及相应位置上的 第二类特征之间的相似度。若待识别视频中包含有T个视频帧,则可 以先采样每个视频帧的相邻视频帧,并在非身体部位特征的位置填充 0,共可得到2T个第二类特征图。
在确定相似度之前,可以先将第一类特征以及第二类特征映射到 低维空间,具体可以通过线性变换实现。即有:
Figure BDA0002920288880000081
其中,f(ci,xj)表示ci和xj之间的余弦相似度,ci表示第一类输入 特征图中位置i处的第一类特征,xj表示第二类输入特征图中任一位 置j处的第二类特征,g(·)表示将特征映射到低维空间的线性变换, 语义映射,可以由1×1卷积层实现。s表示比例因子,且有s>0。
s用于调整余弦相似度的范围,s的取值可以使较高的相似度更 高,较低的相似度更低。s的具体取值可以根据需要进行设置,例如 可以设置为4。合适的比例因子,可以使外观对齐模块精确定位相邻 特征图上的相应区域。
然后,第二类输入特征图上相应位置的初始重构特征可以是初始 重构得到的第二类输入特征图上相应位置的响应,该响应可以是第二 类输入特征图上所有位置的第二类特征的加权和,以保证初始重构得 到的第二类输入特征图包括所有具有相同外观特征的像素。即有:
Figure BDA0002920288880000091
其中,yi表示第二类输入特征图上位置i处的初始重构特征。
然后,由于ci和yi分别来自第一类输入特征图和初始重构得到的 第二类输入特征图,因此可以使用两个非对称映射函数θ(·)和φ(·)先分 别将第一类特征以及初始重构特征映射到共享的低维语义空间。结合 非对称映射函数,确定出第二类输入特征图上相应位置的最终重构特 征。即有:
Figure BDA0002920288880000092
其中,zi表示第二类输入特征图上位置i处的最终重构特征,w是 通过1×1卷积层实现的可学习的权重矢量,
Figure BDA0002920288880000093
表示哈达玛积。
此处,为减少计算量,可以将上述卷积层的输出通道数设置为原 始输出通道数的1/16,即C/16,C为原始输出通道数。
最后,可以根据最终重构特征确定最终重构得到的第二类输入特 征图,将第一类输入特征图以及最终重构得到的第二类输入特征图进 行整合,形成临时张量。通过步幅为(3,1,1)的3×3×3卷积层,生成 T帧的输出张量,最终实现3D卷积层对时间关系进行建模。
本发明实施例中,通过外观对齐模块最终重构得到的第二类输入 特征图,可以确保任意相邻的特征图的身体部位特征位置对齐。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 方法,所述重识别模型的不同残差块之间还包含有共分割注意力模块;
所述共分割注意力模块用于基于注意力机制,提取所述第一类输 入特征图中包含的配饰特征。
具体地,由于现有技术中存在的大多数方法均只针对行人的身体 部位信息,即外观信息,而忽略了重要的附属信息,例如配饰信息, 这也将导致识别精度降低。为此,本发明实施例中在重识别模型的不 同残差块之间还引入共分割注意力模块。通过共分割注意力模块,采 用注意力机制,提取出任一视频帧对应的第一类输入特征图中包含的 配饰特征,有效提高识别精度。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 方法,所述共分割注意力模块包括空间注意力层,用于:
计算所述任一视频帧与所述待识别视频中除所述任一视频帧外 的其他视频帧中的局部描述符之间的归一化相关性;
基于所述归一化相关性,确定所述任一视频帧的空间掩码;
计算所述空间掩码与所述任一视频帧的第三类输入特征图的乘 积结果,以激活所述任一视频帧与所述其他视频帧一致的局部区域。
具体地,本发明实施例中,空间注意力层的目标是为同一个行人 的每个帧估计一个空间掩码,只能通过与所有给定的T个视频帧共同 激活该人的空间位置。设视频帧数为T,每个视频帧的索引p和特征 图的尺寸为DL×HL×WL(DL为通道数,HL为高度,WL为宽度)。经过 卷积层之后得到的特征图进入共分割注意力模块。
为了加快计算速度,将输入特征图通过降维层,使通道数从DL减 少到DR(DR远小于DL),输出尺寸为DR×HL×WL的特征图。
为了匹配跨帧的局部区域,通过对光照变化具有鲁棒性的归一化 互相关操作,将每个视频帧的局部描述符与其他视频帧的局部描述符 进行比较。每个帧的空间位置都包含这个比较值C。即有:
Figure BDA0002920288880000101
其中,C(n)(i,j)为第n个视频帧中第i行第j列的局部描述符的比 较值,
Figure BDA0002920288880000102
是维度为DR×HL×WL的空间特征图Fn,p在每个空间位置(i,j) (1≤i≤HL,1≤j≤WL)的一个DR维的局部描述符。
给定DR维的两个局部描述符P、Q,归一化互相关计算公式为:
Figure BDA0002920288880000111
其中,(μPQ)分别表示局部描述符(P,Q)的平均值,(σPQ)分别 表示局部描述符(P,Q)的标准偏差。
通过1×1卷积层以及S型激活函数来汇总任一视频帧的空间掩 码,将空间掩码与第三类输入特征图相乘,以激活任一视频帧中与所 有T-1个视频帧一致的局部区域。
其中,第三类输入特征图是指任一视频帧对应的、输入至空间注 意力层的特征图。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 方法,所述共分割注意力模块还包括通道注意力层,用于:
对所述第三类输入特征图进行全局平均池化,再将生成的特征向 量传递给多层感知机;
由所述多层感知机基于sigmoid函数激活输入的所述待识别视频 中各视频帧对应的特征向量,确定所述待识别视频中各视频帧对应的 通道重要性向量;
将所述待识别视频中所有视频帧对应的通道重要性向量在每个 维度上通过平均池化合并在一起,确定全局通道重要性向量;
将所述全局通道重要性向量与所述乘积结果相乘,以确定输出的 通道重要性权重向量。
本发明实施例中,通过共分割注意力模块,能够提取待识别视频 内行人的配饰信息,通过视频帧间的局部描述符计算通道重要性权重 向量,并将其与空间注意力特征融合,改善配饰信息提取效果,抑制 背景特征,有效提高识别精度。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 方法,所述重识别模型具体通过如下方法进行训练得到:
调整所述外观对齐模块和所述共分割注意力模块在所述残差网 络中的位置,分别得到多个备选重识别模型;
基于携带有行人标签的视频样本,分别对每个备选重识别模型进 行训练,并基于每个备选重识别模型的训练结果,确定所述重识别模 型。
具体地,首先可以构建视频样本,之后采用残差网络框架提取 行人特征,在特征提取过程中,将残差网络框架中的2D卷积替换为 3D卷积,提取更多的时空信息。在残差网络的不同残差块之间加入 外观对齐模块(Active Appearance Model,AAM),改进外观对齐模 块并调整在网络中的位置,重建对齐的行人外观,提高3D卷积层提 取信息的准确性。另外再加入改进的共分割注意力模块(CSAM), 提高行人及其配饰信息,抑制背景信息。提取特征后计算交叉熵损失 结合三重态损失的损失函数并用自适应矩估计(Adam)优化算法进行优化,最后对识别结果进行排序,以及计算识别准确率和精度。
训练的具体步骤如下:
第一步:分别把MARS数据集、DukeMTMC-VideoReID数据集 和iLIDS-VID数据集作为视频样本集,使用加入外观对齐模块和共分 割注意力模块的残差50层网络进行特征提取。
第二步:调整共分割注意力模块和外观对齐模块在残差50层网 络中的位置,根据位置不同对重识别模型进行多次训练。
第三步:对比重识别模型的重识别结果和行人标签,并计算交叉 熵损失结合三重态损失的损失函数,使用Adam优化算法进行优化, 减小相同行人的特征距离。
第四步:设置阈值,对小于阈值的正样本进行排序。
如图2所示,为本发明实施例中提供的重识别模型的结构示意图, 图2中重识别模型在对待识别视频进行识别时,包含有stage1、stage2、 stage3以及stage4这四个阶段,重识别模型中可以包含至少一个外观 对齐模块(AAM)以及至少一个共分割注意力模块(CSAM)。
综上所述,本发明实施例中提出了基于外观对齐和共分割注意力 的视频行人重识别方法,在三个视频行人重识别普遍采用的数据集上 都取得了较好的效果。从研究结果来看,因为DukeMTMC-VideoReID 数据集是手工标注的,外观不对齐现象可忽略,因此精度提升相比其 他数据集较小,iLIDS-VID数据集取自航空接站大厅,行人不对齐和 背景杂乱等问题非常严重,因此精度提升较多。
表1中通过首位识别准确率(Rank1)、前五位识别准确率(Rank5) 和平均精度均值(mAP)来评估性能。以上指标越大,说明识别准确 率越高。由表1中数据可以看到,本方法在首位识别准确率(Rank1)、 前五位识别准确率(Rank5)和平均精度均值(mAP)等指标和其他方法相比都有明显改善,实验证明该方法是有效的。
表1与相关方法无监督行人重识别结果对比
Figure BDA0002920288880000131
如图3所示,在上述实施例的基础上,本发明实施例中提供了一 种视频行人重识别装置,包括:视频获取模块31和行人重识别模块32。其中,
视频获取模块31用于获取待识别视频;
行人重识别模块32用于将所述待识别视频输入至重识别模型, 得到所述重识别模型输出的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的 卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外 观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频 帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的 第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频 帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述外观对齐模块具体用于:
基于所述第一类输入特征图上每个位置的第一类特征以及所述 第一类特征与所述第二类输入特征图上的第二类特征之间的相似度, 确定所述第二类输入特征图上相应位置的初始重构特征;
基于非对称映射函数、所述第一类特征以及所述初始重构特征, 确定所述第二类输入特征图上相应位置的最终重构特征;
基于所述最终重构特征,确定最终重构得到的第二类输入特征图。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述重识别模型的不同残差块之间还包含有共分割注意力模块;
所述共分割注意力模块用于基于注意力机制,提取所述第一类输 入特征图中包含的配饰特征。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述共分割注意力模块包括空间注意力层,用于:
计算所述任一视频帧与所述待识别视频中除所述任一视频帧外 的其他视频帧中的局部描述符之间的归一化相关性;
基于所述归一化相关性,确定所述任一视频帧的空间掩码;
计算所述空间掩码与所述任一视频帧的第三类输入特征图的乘 积结果,以激活所述任一视频帧与所述其他视频帧一致的局部区域。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述共分割注意力模块还包括通道注意力层,用于:
对所述第三类输入特征图进行全局平均池化,再将生成的特征向 量传递给多层感知机;
由所述多层感知机基于sigmoid函数激活输入的所述待识别视频 中各视频帧对应的特征向量,确定所述待识别视频中各视频帧对应的 通道重要性向量;
将所述待识别视频中所有视频帧对应的通道重要性向量在每个 维度上通过平均池化合并在一起,确定全局通道重要性向量;
将所述全局通道重要性向量与所述乘积结果相乘,以确定输出的 通道重要性权重向量。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述重识别模型具体通过如下方法进行训练得到:
调整所述外观对齐模块和所述共分割注意力模块在所述残差网 络中的位置,分别得到多个备选重识别模型;
基于携带有行人标签的视频样本,分别对每个备选重识别模型进 行训练,并基于每个备选重识别模型的训练结果,确定所述重识别模 型。
在上述实施例的基础上,本发明实施例中提供的视频行人重识别 装置,所述重识别模型在训练过程中采用的损失函数为交叉熵损失结 合三重态损失的损失函数。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电 子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410, 通信接口420,存储器430通过通信总线440完成相互间的通信。处 理器410可以调用存储器430中的逻辑指令,以执行上述各实施例中 提供的视频行人重识别方法,包括:获取待识别视频;将所述待识别 视频输入至重识别模型,得到所述重识别模型输出的所述待识别视频 的行人重识别结果;其中,所述重识别模型基于残差网络构建,所述 重识别模型中的卷积核为3D卷积核,且所述重识别模型的不同残差 块之间包含有外观对齐模块,所述外观对齐模块用于基于所述待识别 视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相 邻视频帧对应的第二类输入特征图之间的相似度,将所述任一视频帧 与所述相邻视频帧中表示同一身体部位特征的位置进行对齐;所述重 识别模型基于携带有行人标签的视频样本训练得到。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算 机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序, 所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计 算机能够执行上述各实施例中提供的视频行人重识别方法,包括:获 取待识别视频;将所述待识别视频输入至重识别模型,得到所述重识 别模型输出的所述待识别视频的行人重识别结果;其中,所述重识别 模型基于残差网络构建,所述重识别模型中的卷积核为3D卷积核, 且所述重识别模型的不同残差块之间包含有外观对齐模块,所述外观 对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之 间的相似度,将所述任一视频帧与所述相邻视频帧中表示同一身体部 位特征的位置进行对齐;所述重识别模型基于携带有行人标签的视频 样本训练得到。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质, 其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上 述各实施例中提供的视频行人重识别方法,包括:获取待识别视频; 将所述待识别视频输入至重识别模型,得到所述重识别模型输出的所 述待识别视频的行人重识别结果;其中,所述重识别模型基于残差网 络构建,所述重识别模型中的卷积核为3D卷积核,且所述重识别模 型的不同残差块之间包含有外观对齐模块,所述外观对齐模块用于基 于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任 一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度,将所 述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进 行对齐;所述重识别模型基于携带有行人标签的视频样本训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付 出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所 述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

Claims (10)

1.一种视频行人重识别方法,其特征在于,包括:
获取待识别视频;
将所述待识别视频输入至重识别模型,得到所述重识别模型输出的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
2.根据权利要求1所述的视频行人重识别方法,其特征在于,所述外观对齐模块具体用于:
基于所述第一类输入特征图上每个位置的第一类特征以及所述第一类特征与所述第二类输入特征图上的第二类特征之间的相似度,确定所述第二类输入特征图上相应位置的初始重构特征;
基于非对称映射函数、所述第一类特征以及所述初始重构特征,确定所述第二类输入特征图上相应位置的最终重构特征;
基于所述最终重构特征,确定最终重构得到的第二类输入特征图。
3.根据权利要求2所述的视频行人重识别方法,其特征在于,所述重识别模型的不同残差块之间还包含有共分割注意力模块;
所述共分割注意力模块用于基于注意力机制,提取所述第一类输入特征图中包含的配饰特征。
4.根据权利要求3所述的视频行人重识别方法,其特征在于,所述共分割注意力模块包括空间注意力层,用于:
计算所述任一视频帧与所述待识别视频中除所述任一视频帧外的其他视频帧中的局部描述符之间的归一化相关性;
基于所述归一化相关性,确定所述任一视频帧的空间掩码;
计算所述空间掩码与所述任一视频帧的第三类输入特征图的乘积结果,以激活所述任一视频帧与所述其他视频帧一致的局部区域。
5.根据权利要求4所述的视频行人重识别方法,其特征在于,所述共分割注意力模块还包括通道注意力层,用于:
对所述第三类输入特征图进行全局平均池化,再将生成的特征向量传递给多层感知机;
由所述多层感知机基于sigmoid函数激活输入的所述待识别视频中各视频帧对应的特征向量,确定所述待识别视频中各视频帧对应的通道重要性向量;
将所述待识别视频中所有视频帧对应的通道重要性向量在每个维度上通过平均池化合并在一起,确定全局通道重要性向量;
将所述全局通道重要性向量与所述乘积结果相乘,以确定输出的通道重要性权重向量。
6.根据权利要求3所述的视频行人重识别方法,其特征在于,所述重识别模型具体通过如下方法进行训练得到:
调整所述外观对齐模块和所述共分割注意力模块在所述残差网络中的位置,分别得到多个备选重识别模型;
基于携带有行人标签的视频样本,分别对每个备选重识别模型进行训练,并基于每个备选重识别模型的训练结果,确定所述重识别模型。
7.根据权利要求1-6中任一项所述的视频行人重识别方法,其特征在于,所述重识别模型在训练过程中采用的损失函数为交叉熵损失结合三重态损失的损失函数。
8.一种视频行人重识别装置,其特征在于,包括:
视频获取模块,用于获取待识别视频;
行人重识别模块,用于将所述待识别视频输入至重识别模型,得到所述重识别模型输出的所述待识别视频的行人重识别结果;
其中,所述重识别模型基于残差网络构建,所述重识别模型中的卷积核为3D卷积核,且所述重识别模型的不同残差块之间包含有外观对齐模块,所述外观对齐模块用于基于所述待识别视频中任一视频帧对应的第一类输入特征图与所述任一视频帧的相邻视频帧对应的第二类输入特征图之间的相似度,将所述任一视频帧与所述相邻视频帧中表示同一身体部位特征的位置进行对齐;
所述重识别模型基于携带有行人标签的视频样本训练得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述视频行人重识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述视频行人重识别方法的步骤。
CN202110115551.2A 2021-01-28 2021-01-28 视频行人重识别方法、装置、电子设备及存储介质 Pending CN112800957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110115551.2A CN112800957A (zh) 2021-01-28 2021-01-28 视频行人重识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110115551.2A CN112800957A (zh) 2021-01-28 2021-01-28 视频行人重识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112800957A true CN112800957A (zh) 2021-05-14

Family

ID=75812291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110115551.2A Pending CN112800957A (zh) 2021-01-28 2021-01-28 视频行人重识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112800957A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036229A (zh) * 2013-03-10 2014-09-10 江南大学 基于回归的主动外观模型初始化方法
CN110543841A (zh) * 2019-08-21 2019-12-06 中科视语(北京)科技有限公司 行人重识别方法、系统、电子设备及介质
CN111161317A (zh) * 2019-12-30 2020-05-15 北京工业大学 一种基于多重网络的单目标跟踪方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
CN111563404A (zh) * 2019-12-31 2020-08-21 北京大学 用于基于视频的人再识别的全局局部时间表示方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036229A (zh) * 2013-03-10 2014-09-10 江南大学 基于回归的主动外观模型初始化方法
CN110543841A (zh) * 2019-08-21 2019-12-06 中科视语(北京)科技有限公司 行人重识别方法、系统、电子设备及介质
CN111161317A (zh) * 2019-12-30 2020-05-15 北京工业大学 一种基于多重网络的单目标跟踪方法
CN111563404A (zh) * 2019-12-31 2020-08-21 北京大学 用于基于视频的人再识别的全局局部时间表示方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARULKUMAR SUBRAMANIAM ET AL.: "Co-Segmentation Inspired Attention Networks for Video-Based Person Re-Identification", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
XINQIAN GU ET AL.: "Appearance-Preserving 3D Convolution for Video-Based Person Re-identification", 《ECCV 2020: COMPUTER VISION – ECCV 2020》 *
张宝华等: "软多标签和深度特征融合的无监督行人重识别", 《光电工程》 *

Similar Documents

Publication Publication Date Title
US10719940B2 (en) Target tracking method and device oriented to airborne-based monitoring scenarios
CN109711316B (zh) 一种行人重识别方法、装置、设备及存储介质
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Ansari et al. Nearest neighbour classification of Indian sign language gestures using kinect camera
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
CN111241975B (zh) 一种基于移动端边缘计算的人脸识别检测方法及系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN108288047A (zh) 一种行人/车辆检测方法
CN105930790A (zh) 基于核稀疏编码的人体行为识别方法
CN110826415A (zh) 一种场景图像中车辆的重识别方法及设备
CN111709313A (zh) 基于局部和通道组合特征的行人重识别方法
CN111291612A (zh) 一种基于多人多摄像头跟踪的行人重识别方法及装置
CN113887494A (zh) 用于嵌入式平台的实时高精度人脸检测识别系统
CN114283402A (zh) 基于知识蒸馏训练与时空联合注意力的车牌检测方法
CN111353385A (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN105930789B (zh) 基于对数欧式空间词袋模型的人体行为识别
CN110825916A (zh) 一种基于形体识别技术的寻人方法
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN115393788B (zh) 一种基于增强全局信息注意力的多尺度监控行人重识别方法
CN115841682A (zh) 基于姿态估计和Transformer的遮挡行人重识别方法
CN112800957A (zh) 视频行人重识别方法、装置、电子设备及存储介质
CN112801020B (zh) 基于背景灰度化的行人再识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication