CN110070066B - 一种基于姿态关键帧的视频行人重识别方法及系统 - Google Patents

一种基于姿态关键帧的视频行人重识别方法及系统 Download PDF

Info

Publication number
CN110070066B
CN110070066B CN201910359494.5A CN201910359494A CN110070066B CN 110070066 B CN110070066 B CN 110070066B CN 201910359494 A CN201910359494 A CN 201910359494A CN 110070066 B CN110070066 B CN 110070066B
Authority
CN
China
Prior art keywords
pedestrian
video
neural network
videos
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910359494.5A
Other languages
English (en)
Other versions
CN110070066A (zh
Inventor
陈羽中
黄腾达
柯逍
林洋洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910359494.5A priority Critical patent/CN110070066B/zh
Publication of CN110070066A publication Critical patent/CN110070066A/zh
Application granted granted Critical
Publication of CN110070066B publication Critical patent/CN110070066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于姿态关键帧的视频行人重识别方法及系统,该方法包括以下步骤:步骤A:使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;步骤B:根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;步骤C:将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;步骤D:利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果。该方法及系统可以提高视频行人重识别的准确度和速度。

Description

一种基于姿态关键帧的视频行人重识别方法及系统
技术领域
本发明涉及模式识别与计算机视觉技术领域,具体涉及一种基于姿态关键帧的视频行人重识别方法及系统。
背景技术
随着科技的进步和社会发展的需要,视频监控系统已被广泛部署到生活中的各种场合中,其具有直观、准确、及时等优点。常见的应用便是视频侦查,即根据案发时监控摄像头拍摄到的嫌疑目标图像,在整个监控网络中搜索该目标在其它摄像头中的画面,以定位该目标。然而,传统的方法主要是依靠人力观看大量监控视频并进行人工比对,该方法成本高、容易出错且效率低下,以无法满足新形势下的视频侦查需求,因此针对特定行人目标的智能检索已成为目前视频监控领域亟需解决的重要问题。
近几年,计算机视觉和模式识别研究的不断发展,使得利用计算机代替人力完成视频侦查成为可能,行人重识别便是解决该问题的方案。视频行人重识别指的是根据输入的目标行人视频,在监控系统中自动查找该行人的其他视频。目前的研究主要集中在依赖于行人目标表观特征的行人重识别技术上,这种表观特征包括衣服颜色、衣着样式和体态特征等。但使用该特征容易受行人姿态因素的影响,同一行人的外观特征会发生很大变化,导致无法得到正确的重识别结果。同时,视频相比于图像,其更容易受到遮挡、光照变化等情况的干扰,导致无法提取鲁棒的视频特征用于相似性的比较。难负样本的存在也阻碍了行人重识别精度的进一步提高,因其特征与目标样本的特征相似性过高,导致不能正确地对其进行分类。
发明内容
本发明的目的在于提供一种基于姿态关键帧的视频行人重识别方法及系统,该方法及系统可以提高视频行人重识别的准确度和速度。
为实现上述目的,本发明的技术方案是:一种基于姿态关键帧的视频行人重识别方法,包括以下步骤:
步骤A:使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;
步骤B:根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;
步骤C:将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;
步骤D:利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果。
进一步地,所述步骤A中,使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络,包括以下步骤:
步骤A1:利用行人姿态关键点的位置信息生成真实的关键点热力图;
步骤A2:将标注了行人姿态关键点位置信息的数据输入行人姿态估计深度神经网络,获得预测的关键点热力图;
步骤A3:结合真实和预测的关键点热力图,计算损失以训练网络。
进一步地,所述步骤A1中,利用行人姿态关键点的位置信息生成真实的关键点热力图的具体方法为:对于每个关键点,利用高斯分布生成真实的关键点热力图,计算公式如下:
Figure BDA0002046440260000021
其中,x、y分别是关键点热力图中任一点的横坐标和纵坐标,prob(x,y)为关键点热力图中(x,y)点的值,π为圆周率,σ1、σ2分别为横坐标和纵坐标的标准差,exp为以自然常数为底的指数函数,μ1、μ2分别为关键点真实的横坐标和纵坐标;
所述步骤A2中,所述行人姿态估计深度神经网络由卷积层、最大池化层、快捷连接块层和平均池化层构成,其输出为预测的关键点热力图;
所述步骤A3中,结合真实和预测的关键点热力图,计算损失以训练网络,包括以下步骤:
步骤A31:按照下面的公式计算损失:
Figure BDA0002046440260000022
其中,loss为损失值,N为关键点数量,将标注数据随机分成若干组,每组构成一个训练批次,B为一个训练批次的图像数量,i表示批次内第i张图像,γ表示第γ个关键点,
Figure BDA0002046440260000031
Figure BDA0002046440260000032
分别是预测和真实的第i张图像的第γ个关键点的热力图,||·||2为欧氏距离;
步骤A32:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人姿态估计深度神经网络的训练。
进一步地,所述步骤B中,根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络,包括以下步骤:
步骤B1:将视频各帧输入行人姿态估计深度神经网络,预测关键点位置;
步骤B2:根据关键点位置选取视频中的姿态关键帧;
步骤B3:将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络,获得预测的类标签向量;
步骤B4:计算分类损失以完成对行人重识别深度神经网络的训练。
进一步地,所述步骤B1中,将视频各帧输入行人姿态估计深度神经网络,预测关键点位置,包括以下步骤:
步骤B11:将视频各帧输入行人姿态估计深度神经网络,获得预测的关键点热力图;
步骤B12:选取热力图中数值最大的点作为预测的关键点,输出关键点的位置坐标;
所述步骤B2中,根据关键点位置选取视频中的姿态关键帧,包括以下步骤:
步骤B21:选取视频中的第一帧为姿态关键帧;
步骤B22:以第一帧为基准,按如下公式计算其余各帧的姿态变化衡量值:
Figure BDA0002046440260000033
其中,tran为当前帧的姿态变化衡量值,N为关键点数量,γ指的是第γ个关键点,λγ为第γ个关键点的权重系数,base_xγ、base_yγ分别是第一帧第γ个关键点的横坐标和纵坐标,pose_xγ、pose_yγ分别是当前帧第γ个关键点的横坐标和纵坐标;
步骤B23:按照姿态变化衡量值对各帧进行递减排序,选取前若干帧作为姿态关键帧;
所述步骤B3中,将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络,获得预测的类标签向量,包括以下步骤:
步骤B31:将姿态关键帧输入特征提取子网络,所述特征提取子网络由卷积层、最大池化层、捷径连接块层和平均池化层构成,以获得各关键帧的特征;
步骤B32:将各关键帧的特征取平均后输入判别子网络,所述判别子网络包括全连接层和Dropout层,输出预测的类标签向量;
所述步骤B4中,计算分类损失以完成对行人重识别深度神经网络的训练,包括以下步骤:
步骤B41:按照下面的公式计算损失:
Figure BDA0002046440260000041
其中,iden_loss指的是分类损失,log和exp分别是以自然常数为底的对数函数和指数函数,fea是网络输出的特征向量,class是类标签,[·]指的是对向量的索引取值,j指的是特征向量中第j个元素;
步骤B42:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人重识别深度神经网络的训练。
进一步地,所述步骤C中,将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表,包括以下步骤:
步骤C1:对于检索集和查询集中的视频,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征;
步骤C2:对所有视频的特征进行降维处理;
步骤C3:对于查询集中的各视频,计算其特征与检索集中各视频的特征之间的距离;
步骤C4:按照距离递增排序,生成各查询视频的近邻列表。
进一步地,所述步骤C1中,随机选取若干帧输入行人重识别深度神经网络中,包括以下步骤:
步骤C11:将视频按照时间顺序分割成若干个视频片段;
步骤C12:对于每个视频片段,随机抽取一帧作为目标帧;
步骤C13:整合所有目标帧,将其输入到行人重识别深度神经网络中;
所述步骤C2中,对所有视频的特征进行降维处理,包括以下步骤:
步骤C21:对特征的每一维计算其平均值,然后将每一维的值减去各自的平均值;
步骤C22:所有特征组成矩阵A={a1,a2,...,am},am表示第m个特征向量,m为视频的数量,计算协方差矩阵
Figure BDA0002046440260000051
T表示矩阵转置,AT为矩阵A的转置;
步骤C23:利用特征值分解方法计算协方差矩阵
Figure BDA0002046440260000052
的特征值和特征向量;
步骤C24:对特征值进行递减排序,选取前若干个,将其对应的特征向量组合成矩阵F;
步骤C25:根据公式D=F·A,将特征矩阵A投影到较低维的特征空间中,D即是降维后的特征向量组成的矩阵;
所述步骤C3中,对于查询集中的各视频,计算其特征与检索集中各视频的特征之间的距离,包括以下步骤:
步骤C31:利用标注了行人分类的视频数据计算度量矩阵R;
步骤C32:根据度量矩阵R,计算查询集中各视频的特征与对应的检索集中各视频的特征的距离。
进一步地,所述步骤C31中,利用标注了行人分类的视频数据计算度量矩阵R,包括以下步骤:
步骤C311:对于标注了行人分类的视频数据,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征,按照步骤C2对特征进行降维处理,并从同一行人的视频中抽取若干对组成相似样本对,从不同行人的视频中抽取若干对组成非相似样本对;
步骤C312:按照下面的公式计算两个协方差矩阵:
Figure BDA0002046440260000053
Figure BDA0002046440260000054
其中,
Figure BDA0002046440260000058
分别是相似样本对和非相似样本对的协方差矩阵,c和d表示样本对中的两个样本,ηc,d为指示变量,如果c和d是相似对则其值为1,若是非相似对则为0,fe是对应样本提取的特征向量;
步骤C313:计算矩阵
Figure BDA0002046440260000055
对其进行特征值分解H=QΛQ-1,得到特征值组成的对角矩阵Λ和分解矩阵Q,修改对角矩阵Λ中小于等于0的特征值为一个设定的正数,得矩阵
Figure BDA0002046440260000056
然后按照公式
Figure BDA0002046440260000057
进行重构,得到度量矩阵R;
所述步骤C32中,根据度量矩阵R,计算查询集中各视频的特征与对应的检索集中各视频的特征的距离的方法为:根据度量矩阵R,按照下面的公式计算特征之间的距离:
distance=(fequery-fegallery)TR(fequery-fegallery)
其中,distance为特征之间的距离,fequery、fegallery分别是查询集视频的特征和检索集视频的特征,R为度量矩阵。
进一步地,所述步骤D中,利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果,包括以下步骤:
步骤D1:对于每个近邻排序列表,遍历前τ个视频,生成各自的近邻列表;
步骤D2:对于前τ个视频,如果其近邻列表的前若干名包含当前查询视频,则将其列入可信视频,不对其进行重排序,否则列入不可信视频;
步骤D3:对于不可信视频,如果其近邻排序列表的前若干名包含了任一可信视频,则将其转成可信视频;
步骤D4:最后将剩余的不可信视频按顺序移至近邻排序列表末端,完成重排序过程,选取近邻列表的前若干名作为行人重识别结果。
本发明还提供了一种基于姿态关键帧的视频行人重识别系统,包括:
行人姿态估计神经网络训练模块,用于使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;
行人重识别神经网络训练模块,用于根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;
近邻列表生成模块,用于将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;以及
行人重识别模块,用于对近邻列表进行重新排序,并从中选取得到行人重识别结果。
相较于现有技术,本发明的有益效果是:提出了一种基于姿态关键帧的视频行人重识别方法及系统,该方法及系统首先利用姿态估计的方法选取视频的姿态关键帧,利用姿态关键帧提高行人重识别网络对姿态变化的适应性,提高其在姿态剧烈变化场景下的识别性能。然后,使用姿态关键帧训练重识别网络,通过视频帧融合方法进一步避免干扰帧对视频特征提取的影响。最后,利用提出的重排序方法筛选出近邻排序列表中的难负样本,提升排序的正确性。本发明高效地解决了难负样本对排序结果产生干扰的问题,具有对行人姿态变化自适应、提取视频特征鲁棒性较高、识别精度高、快速高效等优点,有较高的应用价值。
附图说明
图1是本发明实施例的方法实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于姿态关键帧的视频行人重识别方法,如图1所示,包括以下步骤:
步骤A:使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络,具体包括以下步骤:
步骤A1:利用行人姿态关键点的位置信息生成真实的关键点热力图。具体方法为:对于每个关键点,利用高斯分布生成真实的关键点热力图,计算公式如下:
Figure BDA0002046440260000071
其中,x、y分别是关键点热力图中任一点的横坐标和纵坐标,prob(x,y)为关键点热力图中(x,y)点的值,π为圆周率,σ1、σ2分别为横坐标和纵坐标的标准差,exp为以自然常数为底的指数函数,μ1、μ2分别为关键点真实的横坐标和纵坐标。
步骤A2:将标注了行人姿态关键点位置信息的数据输入行人姿态估计深度神经网络,获得预测的关键点热力图。行人姿态估计深度神经网络由卷积层、最大池化层、快捷连接块层和平均池化层构成,其输出为预测的关键点热力图。
步骤A3:结合真实和预测的关键点热力图,计算损失以训练网络。具体包括以下步骤:
步骤A31:按照下面的公式计算损失:
Figure BDA0002046440260000072
其中,loss为损失值,N为关键点数量,将标注数据随机分成若干组,每组构成一个训练批次,B为一个训练批次的图像数量,i表示批次内第i张图像,γ表示第γ个关键点,
Figure BDA0002046440260000073
Figure BDA0002046440260000074
分别是预测和真实的第i张图像的第γ个关键点的热力图,||·||2为欧氏距离。
步骤A32:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人姿态估计深度神经网络的训练。
步骤B:根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络,具体包括以下步骤:
步骤B1:将视频各帧输入行人姿态估计深度神经网络,预测关键点位置。包括以下步骤:
步骤B11:将视频各帧输入行人姿态估计深度神经网络,获得预测的关键点热力图。
步骤B12:选取热力图中数值最大的点作为预测的关键点,输出关键点的位置坐标。
步骤B2:根据关键点位置选取视频中的姿态关键帧。包括以下步骤:
步骤B21:选取视频中的第一帧为姿态关键帧。
步骤B22:以第一帧为基准,按如下公式计算其余各帧的姿态变化衡量值:
Figure BDA0002046440260000081
其中,tran为当前帧的姿态变化衡量值,N为关键点数量,γ指的是第γ个关键点,λγ为第γ个关键点的权重系数,base_xγ、base_yγ分别是第一帧第γ个关键点的横坐标和纵坐标,pose_xγ、pose_yγ分别是当前帧第γ个关键点的横坐标和纵坐标。
步骤B23:按照姿态变化衡量值对各帧进行递减排序,选取前若干帧作为姿态关键帧。
步骤B3:将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络,获得预测的类标签向量。包括以下步骤:
步骤B31:将姿态关键帧输入特征提取子网络,所述特征提取子网络由卷积层、最大池化层、捷径连接块层和平均池化层构成,以获得各关键帧的特征。
步骤B32:将各关键帧的特征取平均后输入判别子网络,所述判别子网络包括全连接层和Dropout层,输出预测的类标签向量。
步骤B4:计算分类损失以完成对行人重识别深度神经网络的训练。包括以下步骤:
步骤B41:按照下面的公式计算损失:
Figure BDA0002046440260000082
其中,iden_loss指的是分类损失,log和exp分别是以自然常数为底的对数函数和指数函数,fea是网络输出的特征向量,class是类标签,[·]指的是对向量的索引取值,j指的是特征向量中第j个元素。
步骤B42:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人重识别深度神经网络的训练。
步骤C:将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表,具体包括以下步骤:
步骤C1:对于检索集和查询集中的视频,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征。其中,随机选取若干帧输入行人重识别深度神经网络中,包括以下步骤:
步骤C11:将视频按照时间顺序分割成若干个视频片段。
步骤C12:对于每个视频片段,随机抽取一帧作为目标帧。
步骤C13:整合所有目标帧,将其输入到行人重识别深度神经网络中。
步骤C2:对所有视频的特征进行降维处理。具体包括以下步骤:
步骤C21:对特征的每一维计算其平均值,然后将每一维的值减去各自的平均值。
步骤C22:所有特征组成矩阵A={a1,a2,...,am},am表示第m个特征向量,m为视频的数量,计算协方差矩阵
Figure BDA0002046440260000091
T表示矩阵转置,AT为矩阵A的转置。
步骤C23:利用特征值分解方法计算协方差矩阵
Figure BDA0002046440260000092
的特征值和特征向量。
步骤C24:对特征值进行递减排序,选取前若干个,将其对应的特征向量组合成矩阵F。
步骤C25:根据公式D=F·A,将特征矩阵A投影到较低维的特征空间中,D即是降维后的特征向量组成的矩阵。
步骤C3:对于查询集中的各视频,计算其特征与检索集中各视频的特征之间的距离。具体包括以下步骤:
步骤C31:利用标注了行人分类的视频数据计算度量矩阵R,包括以下步骤:
步骤C311:对于标注了行人分类的视频数据,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征,按照步骤C2对特征进行降维处理,并从同一行人的视频中抽取若干对组成相似样本对,从不同行人的视频中抽取若干对组成非相似样本对。
步骤C312:按照下面的公式计算两个协方差矩阵:
Figure BDA0002046440260000101
Figure BDA0002046440260000102
其中,
Figure BDA0002046440260000106
分别是相似样本对和非相似样本对的协方差矩阵,c和d表示样本对中的两个样本,ηc,d为指示变量,如果c和d是相似对则其值为1,若是非相似对则为0,fe是对应样本提取的特征向量。
步骤C313:计算矩阵
Figure BDA0002046440260000103
对其进行特征值分解H=QΛQ-1,得到特征值组成的对角矩阵Λ和分解矩阵Q,修改对角矩阵Λ中小于等于0的特征值为一个设定的正数,得矩阵
Figure BDA0002046440260000104
然后按照公式
Figure BDA0002046440260000105
进行重构,得到度量矩阵R。
步骤C32:根据度量矩阵R,计算查询集中各视频的特征与对应的检索集中各视频的特征的距离,其方法为:根据度量矩阵R,按照下面的公式计算特征之间的距离:
distance=(fequery-fegallery)TR(fequery-fegallery)
其中,distance为特征之间的距离,fequery、fegallery分别是查询集视频的特征和检索集视频的特征,R为度量矩阵。
步骤C4:按照距离递增排序,生成各查询视频的近邻列表。
步骤D:利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果,具体包括以下步骤:
步骤D1:对于每个近邻排序列表,遍历前τ个视频,生成各自的近邻列表。
步骤D2:对于前τ个视频,如果其近邻列表的前若干名包含当前查询视频,则将其列入可信视频,不对其进行重排序,否则列入不可信视频。
步骤D3:对于不可信视频,如果其近邻排序列表的前若干名包含了任一可信视频,则将其转成可信视频。
步骤D4:最后将剩余的不可信视频按顺序移至近邻排序列表末端,完成重排序过程,选取近邻列表的前若干名作为行人重识别结果。
本发明还提供了用于实现上述方法的视频行人重识别系统,包括:
行人姿态估计神经网络训练模块,用于使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;
行人重识别神经网络训练模块,用于根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;
近邻列表生成模块,用于将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;以及
行人重识别模块,用于对近邻列表进行重新排序,并从中选取得到行人重识别结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (8)

1.一种基于姿态关键帧的视频行人重识别方法,其特征在于,包括以下步骤:
步骤A:使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;
步骤B:根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;
步骤C:将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;
步骤D:利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果;
所述步骤B中,根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络,包括以下步骤:
步骤B1:将视频各帧输入行人姿态估计深度神经网络,预测关键点位置;
步骤B2:根据关键点位置选取视频中的姿态关键帧;
步骤B3:将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络,获得预测的类标签向量;
步骤B4:计算分类损失以完成对行人重识别深度神经网络的训练;
所述步骤B1中,将视频各帧输入行人姿态估计深度神经网络,预测关键点位置,包括以下步骤:
步骤B11:将视频各帧输入行人姿态估计深度神经网络,获得预测的关键点热力图;
步骤B12:选取热力图中数值最大的点作为预测的关键点,输出关键点的位置坐标;
所述步骤B2中,根据关键点位置选取视频中的姿态关键帧,包括以下步骤:
步骤B21:选取视频中的第一帧为姿态关键帧;
步骤B22:以第一帧为基准,按如下公式计算其余各帧的姿态变化衡量值:
Figure FDA0003807605650000011
其中,tran为当前帧的姿态变化衡量值,N为关键点数量,γ指的是第γ个关键点,λγ为第γ个关键点的权重系数,base_xγ、base_yγ分别是第一帧第γ个关键点的横坐标和纵坐标,pose_xγ、pose_yγ分别是当前帧第γ个关键点的横坐标和纵坐标;
步骤B23:按照姿态变化衡量值对各帧进行递减排序,选取前若干帧作为姿态关键帧;
所述步骤B3中,将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络,获得预测的类标签向量,包括以下步骤:
步骤B31:将姿态关键帧输入特征提取子网络,所述特征提取子网络由卷积层、最大池化层、捷径连接块层和平均池化层构成,以获得各关键帧的特征;
步骤B32:将各关键帧的特征取平均后输入判别子网络,所述判别子网络包括全连接层和Dropout层,输出预测的类标签向量;
所述步骤B4中,计算分类损失以完成对行人重识别深度神经网络的训练,包括以下步骤:
步骤B41:按照下面的公式计算损失:
Figure FDA0003807605650000021
其中,iden_loss指的是分类损失,log和exp分别是以自然常数为底的对数函数和指数函数,fea是网络输出的特征向量,class是类标签,[·]指的是对向量的索引取值,j指的是特征向量中第j个元素;
步骤B42:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人重识别深度神经网络的训练。
2.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤A中,使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络,包括以下步骤:
步骤A1:利用行人姿态关键点的位置信息生成真实的关键点热力图;
步骤A2:将标注了行人姿态关键点位置信息的数据输入行人姿态估计深度神经网络,获得预测的关键点热力图;
步骤A3:结合真实和预测的关键点热力图,计算损失以训练网络。
3.根据权利要求2所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤A1中,利用行人姿态关键点的位置信息生成真实的关键点热力图的具体方法为:对于每个关键点,利用高斯分布生成真实的关键点热力图,计算公式如下:
Figure FDA0003807605650000022
其中,x、y分别是关键点热力图中任一点的横坐标和纵坐标,prob(x,y)为关键点热力图中(x,y)点的值,π为圆周率,σ1、σ2分别为横坐标和纵坐标的标准差,exp为以自然常数为底的指数函数,μ1、μ2分别为关键点真实的横坐标和纵坐标;
所述步骤A2中,所述行人姿态估计深度神经网络由卷积层、最大池化层、快捷连接块层和平均池化层构成,其输出为预测的关键点热力图;
所述步骤A3中,结合真实和预测的关键点热力图,计算损失以训练网络,包括以下步骤:
步骤A31:按照下面的公式计算损失:
Figure FDA0003807605650000031
其中,loss为损失值,N为关键点数量,将标注数据随机分成若干组,每组构成一个训练批次,B为一个训练批次的图像数量,i表示批次内第i张图像,γ表示第γ个关键点,
Figure FDA0003807605650000032
Figure FDA0003807605650000033
分别是预测和真实的第i张图像的第γ个关键点的热力图,||·||2为欧氏距离;
步骤A32:利用反向传播,根据损失值计算网络中各参数的梯度值,然后利用随机梯度下降方法更新参数,完成行人姿态估计深度神经网络的训练。
4.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤C中,将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表,包括以下步骤:
步骤C1:对于检索集和查询集中的视频,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征;
步骤C2:对所有视频的特征进行降维处理;
步骤C3:对于查询集中的各视频,计算其特征与检索集中各视频的特征之间的距离;
步骤C4:按照距离递增排序,生成各查询视频的近邻列表。
5.根据权利要求4所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤C1中,随机选取若干帧输入行人重识别深度神经网络中,包括以下步骤:
步骤C11:将视频按照时间顺序分割成若干个视频片段;
步骤C12:对于每个视频片段,随机抽取一帧作为目标帧;
步骤C13:整合所有目标帧,将其输入到行人重识别深度神经网络中;
所述步骤C2中,对所有视频的特征进行降维处理,包括以下步骤:
步骤C21:对特征的每一维计算其平均值,然后将每一维的值减去各自的平均值;
步骤C22:所有特征组成矩阵A={a1,a2,...,am},am表示第m个特征向量,m为视频的数量,计算协方差矩阵
Figure FDA0003807605650000041
T表示矩阵转置,AT为矩阵A的转置;
步骤C23:利用特征值分解方法计算协方差矩阵
Figure FDA0003807605650000042
的特征值和特征向量;
步骤C24:对特征值进行递减排序,选取前若干个,将其对应的特征向量组合成矩阵F;
步骤C25:根据公式D=F·A,将特征矩阵A投影到较低维的特征空间中,D即是降维后的特征向量组成的矩阵;
所述步骤C3中,对于查询集中的各视频,计算其特征与检索集中各视频的特征之间的距离,包括以下步骤:
步骤C31:利用标注了行人分类的视频数据计算度量矩阵R;
步骤C32:根据度量矩阵R,计算查询集中各视频的特征与对应的检索集中各视频的特征的距离。
6.根据权利要求5所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤C31中,利用标注了行人分类的视频数据计算度量矩阵R,包括以下步骤:
步骤C311:对于标注了行人分类的视频数据,随机选取若干帧输入行人重识别深度神经网络中,获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征,按照步骤C2对特征进行降维处理,并从同一行人的视频中抽取若干对组成相似样本对,从不同行人的视频中抽取若干对组成非相似样本对;
步骤C312:按照下面的公式计算两个协方差矩阵:
Figure FDA0003807605650000043
Figure FDA0003807605650000044
其中,
Figure FDA0003807605650000051
分别是相似样本对和非相似样本对的协方差矩阵,c和d表示样本对中的两个样本,ηc,d为指示变量,如果c和d是相似对则其值为1,若是非相似对则为0,fe是对应样本提取的特征向量;
步骤C313:计算矩阵
Figure FDA0003807605650000052
对其进行特征值分解H=QΛQ-1,得到特征值组成的对角矩阵Λ和分解矩阵Q,修改对角矩阵Λ中小于等于0的特征值为一个设定的正数,得矩阵
Figure FDA0003807605650000053
然后按照公式
Figure FDA0003807605650000054
进行重构,得到度量矩阵R;
所述步骤C32中,根据度量矩阵R,计算查询集中各视频的特征与对应的检索集中各视频的特征的距离的方法为:根据度量矩阵R,按照下面的公式计算特征之间的距离:
distance=(fequery-fegallery)TR(fequery-fegallery)
其中,distance为特征之间的距离,fequery、fegallery分别是查询集视频的特征和检索集视频的特征,R为度量矩阵。
7.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法,其特征在于,所述步骤D中,利用重排序方法对近邻列表进行重新排序,选取近邻列表的前若干名为行人重识别结果,包括以下步骤:
步骤D1:对于每个近邻排序列表,遍历前τ个视频,生成各自的近邻列表;
步骤D2:对于前τ个视频,如果其近邻列表的前若干名包含当前查询视频,则将其列入可信视频,不对其进行重排序,否则列入不可信视频;
步骤D3:对于不可信视频,如果其近邻排序列表的前若干名包含了任一可信视频,则将其转成可信视频;
步骤D4:最后将剩余的不可信视频按顺序移至近邻排序列表末端,完成重排序过程,选取近邻列表的前若干名作为行人重识别结果。
8.一种用于实现如权利要求1-7任一项所述方法的基于姿态关键帧的视频行人重识别系统,其特征在于,包括:
行人姿态估计神经网络训练模块,用于使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络;
行人重识别神经网络训练模块,用于根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧,训练行人重识别深度神经网络;
近邻列表生成模块,用于将查询集和检索集的视频输入行人重识别深度神经网络以提取特征,计算各视频间的特征距离,并对各特征距离进行排序,生成各查询视频的近邻列表;以及
行人重识别模块,用于对近邻列表进行重新排序,并从中选取得到行人重识别结果。
CN201910359494.5A 2019-04-30 2019-04-30 一种基于姿态关键帧的视频行人重识别方法及系统 Active CN110070066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359494.5A CN110070066B (zh) 2019-04-30 2019-04-30 一种基于姿态关键帧的视频行人重识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359494.5A CN110070066B (zh) 2019-04-30 2019-04-30 一种基于姿态关键帧的视频行人重识别方法及系统

Publications (2)

Publication Number Publication Date
CN110070066A CN110070066A (zh) 2019-07-30
CN110070066B true CN110070066B (zh) 2022-12-09

Family

ID=67369584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359494.5A Active CN110070066B (zh) 2019-04-30 2019-04-30 一种基于姿态关键帧的视频行人重识别方法及系统

Country Status (1)

Country Link
CN (1) CN110070066B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895809B (zh) * 2019-10-18 2022-07-15 中国科学技术大学 准确提取髋关节影像中关键点的方法
CN110738654B (zh) * 2019-10-18 2022-07-15 中国科学技术大学 髋关节影像中的关键点提取及骨龄预测方法
CN110969124B (zh) * 2019-12-02 2022-09-27 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111177460B (zh) * 2019-12-20 2023-04-18 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN113132727B (zh) * 2019-12-30 2022-07-22 北京大学 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN113132732B (zh) * 2019-12-31 2022-07-29 北京大学 一种人机协同的视频编码方法及视频编码系统
CN112257567B (zh) * 2020-10-20 2023-04-07 浙江大华技术股份有限公司 行为识别网络的训练、行为识别方法及相关设备
CN112541421A (zh) * 2020-12-08 2021-03-23 浙江科技学院 一种开放空间的行人换装重识别方法
CN112712042B (zh) * 2021-01-04 2022-04-29 电子科技大学 嵌入关键帧提取的行人重识别端到端网络架构
CN112966808A (zh) * 2021-01-25 2021-06-15 咪咕音乐有限公司 数据分析方法、装置、服务器和可读存储介质
CN113420697B (zh) * 2021-07-01 2022-12-09 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN114663509B (zh) * 2022-03-23 2022-09-27 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107563313A (zh) * 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置
CN109657597A (zh) * 2018-12-13 2019-04-19 南京邮电大学 面向个体直播场景的异常行为检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037300B2 (en) * 2017-04-28 2021-06-15 Cherry Labs, Inc. Monitoring system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN107563313A (zh) * 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
CN109657597A (zh) * 2018-12-13 2019-04-19 南京邮电大学 面向个体直播场景的异常行为检测方法
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于相关视觉关键词的图像自动标注方法研究";柯逍等;《计算机研究与发展》;20120430;全文 *

Also Published As

Publication number Publication date
CN110070066A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070066B (zh) 一种基于姿态关键帧的视频行人重识别方法及系统
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN106960214B (zh) 基于图像的物体识别方法
CN111177446B (zh) 一种用于足迹图像检索的方法
Li et al. Deep joint discriminative learning for vehicle re-identification and retrieval
CN105574505B (zh) 一种多摄像机间人体目标再识别的方法及系统
CN108596010B (zh) 行人重识别系统的实现方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN104794219A (zh) 一种基于地理位置信息的场景检索方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
CN107977948B (zh) 一种面向社群图像的显著图融合方法
CN112149538A (zh) 一种基于多任务学习的行人重识别方法
CN108446613A (zh) 一种基于距离中心化与投影向量学习的行人重识别方法
CN110633727A (zh) 基于选择性搜索的深度神经网络舰船目标细粒度识别方法
CN112668557A (zh) 一种行人再识别系统中防御图像噪声攻击的方法
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
CN112613474B (zh) 一种行人重识别的方法和装置
CN113792686A (zh) 基于视觉表征跨传感器不变性的车辆重识别方法
CN106575353A (zh) 基于哈希的媒体搜索
CN110458234B (zh) 一种基于深度学习的以图搜车方法
CN111191587A (zh) 一种行人重识别方法及系统
Khare et al. Keyframe extraction using binary robust invariant scalable keypoint features
CN115082854A (zh) 一种面向安防监控视频的行人搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant